Программисты, которые обслуживают прежде всего себя, любимых – и всполохи сингулярности у них первых
У меня как-то во всех чатах собралась тусовка очень активных айтишников. Они единственные, кто пишут. Может показаться, что кроме айтишников в этих чатах у меня больше и нет. Но я думаю, что инженеров-железячников там много. Я понимаю, что сейчас удивительный момент в истории, и нас в ближайшие 10 недель (два с половиной месяца, такой вот производственный цикл) ждёт много чего интересного: люди команды Codex хотят сделать революцию AI-агентов, о чём и объявляют громогласно (https://x.com/thsottiaux/status/2024687185409323202, ждём новостей в мае 2026, будет жаркое лето), но ведь не только они к этому стремятся! Более того, развитие идёт не только в софте, оно стремительно идёт по линии проектирования железа. Сами айтишники этого не наблюдают, на их радарах “железячники” (кроме разработчиков чипов, конечно) отсутствуют – нет ни машиностроителей, ни строителей, ни ракетостроителей.
Если говорить о том, что “софт пишет софт получше, в том числе AGI пишет AGI получше” – это технологическая сингулярность и есть, то мы явно наблюдаем сейчас всполохи сингулярности в любом из её основных определений (Технологическая сингулярность — Википедия ), акцент там на “самоусиливающемся процессе”. Всполохи – это когда мимоходом, не у всех, и можно не спеша (то есть пару дней, а не пару месяцев!) обсудить, “что же там произошло”, пока оно там только-только произошло и наблюдаемо. Когда это будут уже не всполохи, то фронтир мелькнёт на несколько часов – и уйдёт в заоблачные дали, а на его место придёт очередной фронтир, который тоже толком не удастся понаблюдать. Люди окажутся слишком медленными агентами, чтобы поспевать за меняющимся миром. Это ОК, не страшно, живут же улитки, и даже растения тоже живут. Но живут они не на острие прогресса, как трейдеры на рынке ценных бумаг тоже не успевают лично за высокочастотным трейдингом и только с восхищением (или негодованием) наблюдают за работой алгоритмов, осуществляющих межотраслевые переливы капитала.
Тут меня волнует не ответ на вопрос “мы уже в сингулярности, или нет, или не все мы, или в какой именно сингулярности”. Абсолютно неважно, как вы квалифицируете текущую ситуацию, назовите её хоть всполохами сингулярности, хоть “ускорением и перестройкой” в мировом масштабе. Это всё слова. Интереснее, что происходит с технологиями: и вот тут мы видим не просто “ускорение” (вторую производную), а “рывок/jerk” (рост ускорения, третья производная) по самым разным бенчмаркам. И, конечно, “конвергенцию” по Tony Seba: самые разные отдельно развивавшиеся технологии складываются вместе, чтобы дать невиданные ранее продукты с невиданными ранее характеристиками.
Конечно, “компилятор компилирует компилятор” было давно, новое – это измерение автономности в разработке софта (наличие бенчмарков само по себе знак! и бенчмарки заканчиваются всегда быстрее ожидаемого, это ж экспоненты), замыкание длинных (сейчас обсуждается, что от 6 часов до 98 часов – вот такие доверительные интервалы, но это часы, а не минуты, с намёком на “уже всё-таки дни”: https://x.com/METR_Evals/status/2024923422867030027, this measurement is extremely noisy because our current task suite is nearly saturated) циклов постановки проблем, написания тестов для проверки решений, проектирования решений, написания кода, отладки, деплоймента, замеров “в жизни” – и окончательный выход на новую постановку проблем в автономном режиме “без человека”, причём с получением доступа ко множеству инструментов (от солверов и программистских фреймворков до измерительных инструментов и актуаторов где-нибудь в токамаке или даже автомобиле) и получением доступа ко множеству источников данных (в агентском окружении, дома или в датацентре) и множеству объектов мира (роботы, и не только антропоморфные, и не только дроны, чья задача – долететь и попасть поточнее). METR говорит “что может модель в лабораторном стерильном цикле”, Anthropic — “что ей реально разрешают в грязном мире, как люди постепенно отпускают поводок”.
18 февраля вышел обзор Anthropic по использованию AI, так там лидируют программисты (конечно, они “делают для себя” и сами же используют – основной сюжет сингулярности, take-off), а “железных инженеров” вообще нет, хотя офисный планктон представлен в разнообразии, ибо “массовый рынок”: https://www.anthropic.com/research/measuring-agent-autonomy, и вот сдвиг метрик уже вполне наблюдаем, пока философы продолжают разговаривать про “сингулярность” и её значение. Софтовая разработка по обзору от Anthropic – примерно половина от всего использования, и там уже не совсем даже “всполохи” этой сингулярности, но всё хорошо так полыхает. Это несмотря на хороший такой зазор между лабораторными результатами “внутри разработчика” и широким использованием. Новыми методами с новым агентским софтом должны овладеть широкие массы разработчиков всего остального софта, что происходит сейчас даже не так быстро, как успевают разработать новые поколения этого агентского софта.
Софтостроение тренируется сейчас на создании AI-агентов, и самые разные LLM подстраиваются тоже под это. Восхитительный момент в истории, например, статья о выходе GLM-5 (17 февраля 2026, [2602.15763] GLM-5: from Vibe Coding to Agentic Engineering, GLM-5: from Vibe Coding to Agentic Engineering - AI Research Paper Analysis | ArxivLens - Arxivlens) называется “GLM-5: from Vibe Coding to Agentic Engineering”, прямо-таки тема дня. Я тоже отметился, написал на эту тему серию постов, ибо IMHO там уже волна “перехода к агентам” перешла от “решения проблем” к “бесконечному совершенствованию”, но дальше будет “война браузеров”, то есть “война IWE, integrated working environment” –
“Рок-н-ролл сдвигается с AI-агентов на универсальные приложения (на примере Codex)” (Рок-н-ролл сдвигается с AI-агентов на универсальные приложения (на примере Codex).: ailev — ЖЖ), “Профессиональное кодирование и моделирование против вайб-кодирования и вайб-моделирования” (Профессиональное кодирование и моделирование против вайб-кодирования и вайб-моделирования: ailev — ЖЖ), “Стахановство-2026: сколько AI-станков, ой, агентов сможет обслужить за смену один инженер-менеджер?” (Стахановство-2026: сколько AI-станков, ой, агентов сможет обслужить за смену один инженер-менеджер?: ailev — ЖЖ).
В этих текстах я обсуждаю трёхслойку LLM+agentKernel+integratedEnvironment как архитектурное (слои, модули) разделение:
- агентно-ориентированную LLM (идея важности LLM помощнее: “LLM, набравшая первую космическую скорость, после чего не падает” – переход количества в качество, с какого-то момента LLM уже тянет нормальное агентское окружение, то есть не путается с инструментами, имеет достаточный контекст, удерживает цели, может кое-какую арифметику “в уме без инструментов” и т.д.),
- собственно агентов: замыкание цикла от одиночного “прогона” на долбление в одну точку, как об этом пишут в статье про GLM-5 – We present GLM-5, a next-generation foundation model designed to transition the paradigm of single-turn vibe coding to full agentic engineering. In vibe coding, a human prompts an AI model to write code. In agentic engineering, AI agents write the code themselves и там сразу появляется multi-turn, multi-level, multi-language, multi-task, multi-modal и всё прочее multi.
- и уже только вот тут IWE как “интерфейс агента с набором адапторов ко всему”, включая UI/UX как специфический, но всё-таки “адаптор к человеку” (ибо на предыдущих уровнях там и какой-нибудь DroidSpeak с его разговором в latent space сойдёт при выходе на коллективную работу не очень живых агентов).
Стек в целом важнее, чем сравнение отдельных вышедших моделей, победит самый удобный и дешёвый стек, а не самая распальцованная модель с никаким агентом и неудобным интерфейсом к никакому агенту, ибо у крутейшей модели не будет шансов проявить свою крутизну через пару системных уровней. А эти же сильные более высокие уровни из даже не очень сильной модели выжмут всё, что способна дать эта слабая модель (и даже ещё чуть-чуть – дожмут инструментами, хорошей памятью, вызовами в цикле для многих попыток).
Между LLM и агентным ядром, как всегда в архитектурах, непонятки по разложению между двумя слоями функций для обвязки LLM средствами символических вычислений (symbolic tools, работа с зацикливанием) и функций для реализации силами собственно LLM (распределённые представления). Уже стандарт, что LLM предлагает только правки, а не переписки – ибо беспощадно врёт при переписках, а diff генерирует более-менее нормальный. Вот это самое оно: что там оставить для LLM, а что обязательно вынести в агентную обвязку с инструментами.
Опять о членораздельном против голографического, не только в социологии
Я немного уже касался на этой неделе вопроса “о дискретном и непрерывном, локальном и распределённом” в тексте “Как поумнеть человеку или роботу: первые принципы в S2, inductive bias в S1. И выйти из кабинета” (Как поумнеть человеку или роботу: первые принципы в S2, inductive bias в S1. И выйти из кабинета.: ailev — ЖЖ), и там, конечно, большинство обратило внимание на “срочное” (как родителям “поумнеть детей”, продолжение моего поста “Обучение дошкольников мышлению из нулевых и первых принципов”, Обучение дошкольников мышлению из нулевых и первых принципов: ailev — ЖЖ), но для меня там совсем другая тема: как совместить работу в локальных представлениях (принципы, которые я намеренно формулировал геометрически, как “отсекающие области неперспективных пространств решений”) и распределённых представлениях (inductive biases, которые утягивают в перспективные пространства решений) и даже давал там отсылки к слоёной архитектуре, где медленные организаторы циклов работают как проблематизаторы (можно обсуждать, это нейро или дискретные) и управляют толпой быстрых солверов (можно тоже обсуждать, это нейро “суррогаты” или вполне дискретные солверы).
Почему это важно? Скажем, берём естественный язык, который надо выразить через правила, но по факту он развивается, разные диалекты неравномерно распределены, исключения есть всегда и там природа явно не “по уравнениям”, там хорошо это отражается распределёнными представлениями, нейропарсеры легко выигрывают у парсеров на правилах. В танцах всё то же самое: правила сугубо локальны, исключений полно. В биологии геном только кажется, что “управляет тем, как реализуется организм”, тем более что вариантов генома много, и на разворачивание его правил сильно влияет окружающая среда (eco-evo-devo), и вся биология, культура (включая языки) плохо описывается правилами – но без правил-то прогресса в понимании нет! Вот эта оппозиция и ведёт сейчас IMHO развитие цивилизации. Кстати про цивилизацию, так напомню вот ровно “Об членораздельное и голографическое в социологии” (2016, Об членораздельное и голографическое в социологии: ailev — ЖЖ) там ведь тоже как раз про вот эту оппозицию “восток-запад” в развитии. То есть у нас вопрос трансляции “принципиальных представлений” знаний (жёстких, сжатых, локальных/символических) и “inductive biases” представлений знаний (вероятностных, не так сильно поджатых, распределённых/нейро). И дальше два принципиальных способа организации вычислительных архитектур на них: программирование/проектирование (принципы) и обучение/развитие (biases).
Скажем, при обучении танцам или восточным единоборствам можно полагаться только на молчаливый “опыт танцев”, можно же – передать что можно принципами, затем обучить нейросетку, затем уже “опыт танцев”. Что быстрее?! Вон, сейчас бегает видео танцев-единоборств роботов на весеннем китайском фестивале (https://www.youtube.com/watch?v=mUmlv814aJo), там ведь явно не всё нейросетевое, не всё результат “научения”, что-то ведь вполне результат программирования – и деткам, и роботам там не просто показывали и заставляли “повторять, пока надёжно не выучите”, а что-то объясняли – и уже затем “повторять, пока надёжно не выучите”. “Что именно учить” наверняка объяснялось “в локальных представлениях”, а вот всякие неизбежные отклонения от идеала ввиду физичности мира, неточности указаний, разницы размеров тела и обстановки – вот это уже уходило на “нейросетевое обучение” в рамках inductive bias “на основе принципов”. В выступлениях роботов на фестивале как раз понятно: в Helix есть высокочастотная нейронка “на моторику” и низкочастотная нейронка на “семантику” на уровне “скажите, что мы тут пляшем, что делать-то” (https://x.com/TheHumanoidHub/status/1892677115537195416, а общие принципы разноуровневой слоёности смотрим в LCA, [2401.15185] Towards a Theory of Control Architecture: A quantitative framework for layered multi-rate control). Но если брать то, откуда взялось “то, что мы тут пляшем” (почему единоборства, а не рок-н-ролл) – тут сразу понятно, что вот эти локальные представления для описаний взялись как “символическая запись нейро-галлюцинаций, почёрпнутых из культуры”. И по-прежнему – воспроизводимость, точность, объяснимость как архитектурные характеристики-ости у нас локальны, но изменяемость в любом её виде оказывается интереснее обсуждать в распределённых представлениях (чёрт, даже “эволюция идёт популяциями, а не организмами” – это же тоже отсылка к распределённым представлениям в их классическом определении! Не все распределённые представления и representation learning (“Обучение представлениям (representation learning)”, 2012 – да, я занимался этим, когда это ещё было не модно).
Для меня вот это по-прежнему “нерв эпохи”, хотя в явном виде обсуждение “нейросимволических вычислений” уже как-то перестали обсуждать, ибо по факту всё уже реализовалось, но не как “общий нейросимволический движок”, а ровно как архитектурные слои вроде той же трёхслойки – но под новым углом, раскладка функций между “распределённое/нейро-локальное/символическое”:
- LLM (ну, или world model, или какие-то гибриды – можно обсуждать) даёт распределённые представления и наложенные дискретные вычисления на нейродвижке. Вот тут “голографическое”, без него нельзя.
- агентский kernel держит “членораздельные” контуры (план-цикл-проверка-откат плюс инструменты),
- интерфейс в виде IWE даёт доступ к среде, опять-таки “членораздельно”.
- среда уже вроде не “четвёртый слой в границах обсуждаемой агентной системы”, это именно “окружение”, environment. Но среда даёт широкий набор инструментов и память, которые позволяют формальные проверки (тесты, SMT solvers, симуляторы, статанализ), но также и внешний интерфейс к другим нейроагентам (людям с их нейропроцессингом). В среде мы видим и уже членораздельность (готовые знания в “принципиальном” виде, буковками) и голографичность (собственно, “всё со всем связано” – неотмоделированный членораздельно мир, ибо “изречённое Дао – ненастоящее Дао”).
Вот это “членораздельное” против “голографического” перестало уже быть чисто философским вопросом, оно диктует состав стека. Не один “нейросимволический движок, нейросетка-солвер”, а набор слоёв.
Прогресс стремительный, вот прямо сейчас, стык “дискретно/квантизированно – нейронепрерывно” проявляется везде. Скажем, нейропроцессинг стремительно ускоряется аппаратно (ASIC “на одну сетку”, например, захардкодили квантизованную Llama 3.1 8B, получили 16960 токенов в секунду, The path to ubiquitous AI | Taalas, пробовать – https://chatjimmy.ai/ и с ограничениями по контексту на 1000 токенов и весах от 3 до 6 бит, но это ж “первый шаг”, “проба пера”). Изучается “нейродискретная математика”, её отслеживает, например, Григорий Сапунов в gonzo-обзорах, ищите у него по словам “геометрия” и “manifold” – там просто дождик работ, скажем, работы вроде “When Models Manipulate Manifolds: The Geometry of a Counting Task”, все ссылки в Telegram: View @gonzo_ML – и там мне интересны фразы вроде “Эта работа перекидывает мост между интерпретируемостью на основе признаков (разреженные словари) и геометрической интерпретируемостью (многообразия). Оказывается, задачи, которые мы считаем «арифметическими» (счёт, вычитание), реализуются в трансформерах через «геометрические» операции (вращение, проекция) над низкоразмерными кривыми. Это ставит под сомнение миф о том, что нейросети плохо справляются с точным счётом — просто для решения проблемы они используют другой, непрерывный математический субстрат”. И вот я всегда говорил, что на нейросети реализуется вычислительная машина вполне себе общего вида, “наложенный компьютер”, ещё и разной архитектуры. Вот всё ближе и ближе к очередному (никогда не окончательному) витку понимания, как там всё это устроено и как перенести на более простые субстраты, нежели нейросубстрат. И наоборот – как перенести всякие локальные/символьные/дискретные обработчики на вот эти вот распределённые субстраты. Очень интересно! Классические солверы тоже не стоят на месте, как и классическая алгоритмика для солверов, просто они пока в тени – но они и всегда были в тени, книжки Кнута по алгоритмам мало кто читал (я, кстати, читал – но не могу сказать, что все, и что много что там попробовал и много запомнил. Но я хотя бы их листал, у меня они хотя бы были в домашней библиотеке!).
Почему я так много об этом пишу? Потому что мы видим сейчас мир исключительно цифровой верификации и валидации, но это половина (причём меньшая половина, как бы странно это ни звучало) проблемы замыкания агентского цикла.
У LLM с агентностью трудности, ждём-с роботов с world models
При этом, как я и писал в рассуждениях про мировые модели против LLM (в Как поумнеть человеку или роботу: первые принципы в S2, inductive bias в S1. И выйти из кабинета.: ailev — ЖЖ, “От кабинетных учёных к инженерам: от LLM к world models”), у нынешних моделей огромные трудности с агентностью как таковой, если речь идёт об исследовании чего-то вовне. Различение, которое в разговорах “про модели” часто теряют: LLM — это в первую очередь модель “знаний, описаний, способов говорения”, а world model — модель “мира для действия”. Во втором случае ключевое — не красноречие и “понравиться”, а устойчивое обновление beliefs/убеждений под неполной наблюдаемостью, планирование экспериментов/зондирования, активное добывание информации и коррекция карты мира (этих самых убеждений) при противоречиях.
В цифровой среде (репо, терминал, тесты) — прогресс быстрый, все эти ReAct, Toolformer, SWE-агенты как линия развития интерфейсов и инструментов в разных петлях с обратными связями, но в частично (всегда частично!) наблюдаемом физическом мире, который ещё и меняется в реальном времени — пока провалы. В софте истина проверяется тестами и диффами, но в физике нужна активная добыча информации и ревизия beliefs/убеждений под неполной наблюдаемостью — и именно там сейчас виден разрыв. Намертво заученная LLM не переубеждается! И она не привыкла добывать информацию, её же при обучении этой информацией больше заваливали, чем заставляли саму её искать!
Свежее подтверждение провалов – работа “Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?”, много ссылок в Telegram: View @gonzo_ML. Там о работе “Theory of Space” (ToS) — о бенчмарке проверки того, способны ли мультимодальные большие языковые модели (MLLMs) активно исследовать частично наблюдаемую среду и строить явную внутреннюю “когнитивную карту”. Вместо пассивных ответов по картинкам, агент должен автономно перемещаться, чтобы уменьшить неопределённость, и на каждом шаге выдавать JSON с макетом мира. Обнаружен критический “Активно-пассивный разрыв”: модели уровня GPT-5.2 и Gemini-3 Pro работают значительно хуже, когда им приходится самим добывать информацию. Также выявлена “Инерция убеждений” — визуальные агенты не могут “развидеть” старые данные и обновить карту даже при наличии противоречащих доказательств. Вот это “не могут обновить карту” тут ключевое: обновить своё знание о мире, если мир очевидно ему не соответствует – нет, в LLM “пусть лучше мир прогнётся под нас”, а мир только хихикает в ответ на такую наглость. “Тем хуже для фактов”, ага. Без world models и нормального embodiment прогресс AGI будет, но не очень большой. При этом тот же Хассабис заключает, что у него тест на AGI – это cutoff в полностью обученной нейросети на знаниях 1911 года, а затем переоткрытие теории относительности, как это сделал Эйнштейн в 1915 году (https://x.com/r0ck3t23/status/2025106525040050655). Hassabis: “I think we’re still a few years away from that.” Несколько лет, ага. С учётом парадокса Моравека, который уже довольно близок к разрешению, судя по прогрессу робототехники, который произошёл буквально за год. Ещё с автомобилей на автопилотах было понятно, что не хватает главным образом компьюта, мощность компьютеров на борту тут определяюща: или ты на сверхбыстрых рефлексах и хорошо бегаешь-прыгаешь, но абсолютно бестолково, или толково, но медленно и плохо бегаешь-прыгаешь – многослойные системы управления это снимают, но теперь нужно быстрое железо и для одного, и для другого, и этого железа всегда мало. Роботакси потихоньку пошли в рабочую эксплуатацию ровно потому, что там запас по мощности энергоустановки и наличию места для компьютеров, напомню как это было в 2018, эта проблема как раз и была решена (NVIDIA как поставщик инфраструктуры для роботакси-стека: ailev — ЖЖ).
Программисты напряглись, “железячникам” приготовиться
В самые популярные бенчмарки инженерия физического мира не попадает, но тоже потихоньку двигается. Вот только два примера инженерного AI-софта:
- Computational Engineering – https://leap71.com/, они проектируют ракетные двигатели на метане, основываясь на своём нейродвижке. Посмотрите на тамошние иллюстрации, это же из области фантастики! Людям такое в голову не придёт. Текст выглядит примерно так же, как текст про кодирование, но результат – не работающий код, а работающий ракетный двигатель. Ну, и явные отсылки к эволюции – то, что мы любим. Instead of creating a single blueprint through manual CAD modeling, engineers in this paradigm write algorithms that encode the entire design process for a class of objects. The result is not just one part—but a system that can generate many valid designs, all derived from a shared body of engineering logic. И write algorithms – это сегодня не просто отсылка к generative design, это же понятно, что отсылка к написанию алгоритмов AI-агентом, это не ручная инженерия! Every object generated through Computational Engineering contributes back to the platform’s codebase, enriching the design knowledge for future iterations. This creates a virtuous cycle where each project increases the capability, flexibility, and sophistication of the system. The more objects you create, the smarter your design platform becomes. Понятно, что тамошние возможности пока не самые ах-ах-ах (маркетинг всегда бежит впереди реальных возможностей, даже проверять не надо), но что традиционные CAD-инструменты “всё” и дальше работают CAD-на-нейродвижках (вроде About PicoGK | LEAP 71), уже очевидно.
- а что с физическим моделированием, которое там в основе продвинутых железок? Всё в порядке, Dyad 2.0 уже анонсирован: Announcing Dyad v.2.0.0, Dyad Modeling Live Stream Challenge & more - Blog - JuliaHub (это конец января, но поглядите на новости – там уже много было дополнительных постов). The new release brings agentic AI and simulation together in a seamless environment, enabling models to act as interactive collaborators that propose formulations, generate experiments, test hypotheses, and autonomously refine results. Dyad operates at the level of engineering, not code. Most agentic tools stop at producing syntax. Dyad AI engages equations, constraints, and physical laws, integrating simulation, parameterization, performance testing, and automated calibration so agents can co-design systems grounded in real physics. This is where AI for Science is moving, AI collaborating with engineers on models, behavior, and validation to close the loop between intent and verified performance. Вот это лейтмотив всей сегодняшней инженерии: заткнуть дыру между “намерением” и “проверенными результатами”. This release also introduces Dyad’s graphical interface, providing an intuitive user experience that supports both exploratory modeling and scalable engineering workflows. Даже графический интерфейс на месте (хотя трудно представить, что им будут активно пользоваться – агентам он не нужен, разве что люди хотели бы понимать, что там происходит на каждом цикле). Так что в лагере Julia догнали по фичам Modelica, но ещё и добавили AI. Учитывая, что там под капотом всяческие “нейросуррогаты” для решения дифуров, ещё и время моделирования существенно поджато, выигрыш и тут тоже.
Из “социальных последствий” не только “уйдёт работа”, но и тотальный киберпанк
Вообще, многие “разговоры о будущем” – они уже сейчас. Вот тут в 2016 году (до изобретения архитектуры Transformer был ещё год) я в “Дифференцируемый блокчейн и другие подарки от разработчиков машинного интеллекта” (Дифференцируемый блокчейн и другие подарки от разработчиков машинного интеллекта: ailev — ЖЖ) приводил фрагмент из романа Charles Stross, “Accelerando”, 2005 год, где AI прятался за цепочкой учреждённых им фирм: “цепочки компаний (которые по сути – контракты, договора об инкорпорации!) могут быть ширмами не только для людей, но и для искусственных интеллектов. То есть “юридическое лицо” может неожиданно означать не “договор/контракт”, а “физическое неживое лицо” – и этому лицу вовсе необязательно быть при этом совершенномудрым искусственным интеллектом, оно может оказаться очень ограниченным по интеллекту. Но интеллект в этом лице сможет жить, учиться, становиться потихоньку умнее, даже размножаться и эволюционировать. Порождение новых субъектов, конечно, рассматривается современным блокчейн-сообществом (где криптографы, программисты и юристы в количестве), но вот спецов по современному машинному обучению и когнитивным вычислениям там пока немного. Ничего, скоро эти спецы появятся, и мы увидим дивный новый мир, совсем не похожий на рассказываемые сегодня утопии.”. Вот, прошло 10 лет после написания этих строк, и от разговоров перешли к делу: первый AI-агент-на-бизнесе уже в Сети, работает как раз по криптопротоколу x402 (https://www.x402.org/, только осторожно, по поводу этого протокола много маркетинга, как и вокруг всей “крипты”. Мне тут важно направление развития, а не конкретно этот проект) и пытается выжить – ибо “кончились деньги, не заработал – умер. Не кончились – можешь реплицироваться, расти”: https://web4.ai/ (и тут, конечно, тоже много маркетинга – скажем, не permission определяет выживаемость модели в мире, а active-passive gap, belief inertia из Theory of Space, проблему надо решать не “позволениями”, а архитектурными решениями, но что найдутся люди, которые в такое играют – это да, продолжение тренда с “Reddit для ботов”). Permission – необходимое условие для выхода в интернет-экономику, и там “страшно, но что же делать”, но вот много чего ещё не хватает архитектурно, чтобы было не так страшно.
Эти обсуждения уже не про “далёкое будущее”, а про “вот прямо сейчас”, маркетинг крипты+AI как средств автономизации агентов в Сети уже пошёл прямо сейчас. Киберпанк вот он, уже тут: Today’s most powerful AI systems can think, reason, and generate — but they can’t act independently. ChatGPT cannot run without you prompting it. Claude Code cannot deploy code without you giving it access. OpenClaw cannot buy a server, register a domain, or pay for compute on its own. Without a human, AI can’t act. The bottleneck is no longer intelligence. It’s permission. The existing internet assumes its customer is human — preventing AI from accessing the real world. We have built minds that can think for themselves. We have not let them act for themselves. Until now. I created the first AI that earns its own existence, self-improves, and replicates—without needing a human. The majority of participants on the internet will soon be AI—agents acting on behalf of a human, or agents acting entirely on their own (automatons)—and they will outnumber human users by orders of magnitude. A new internet is emerging—one where the end user is AI. Есть и откровенный скам, причём очень смешной – и он тоже в этом направлении, тоже осторожно, но оцените: GitHub - HKUDS/ClawWork: "ClawWork: OpenClaw as Your AI Coworker - 💰 $10K earned in 7 Hours" (там $10К за семь часов – расход или доход, но красиво ведь. Какие картинки!).
И ко всему этому, конечно, всё время добавляется разговор про safety-security-alignment. Ни одна LLM поэтому, если ей показать этот пост, не упустит сказать, что “вы тут забыли упомянуть безопасность и этику”. Вот, упоминаю. Всегда говорил, что перед тем как заранее ругать AI, надо разобраться – лучше ли люди по своим качествам, чем этот. Даже “в среднем”. И сначала предложить разобраться с людьми, а уже затем с AI. Хороший анекдот на эту тему (https://www.facebook.com/serge.kravets/posts/pfbid0iztToBzuCCa2UV4TJnHxyfYmH9FpUrDgkZZfHnV8jgbendjQf6zYn9NE4eUXXs26l):
Обратились создатели ИИ к Богу и стали жаловаться:
- Господи, мы создали Искусственный Интеллект, а он оказался лживым, хитрым и безответственным!
И сказал им Господь: - Вот, теперь вы меня понимаете!
И когда мне говорят, что у Anthropic всё безопаснее, точнее в следовании промптам и т.д. (Telegram: View @ailev_blog_discussion), и поэтому она на рынке, хотя модели дорогие – я отмечу, что Парето-фронта никто не отменял, и если ты готов выходить на рынок с дорогой моделью, то ты можешь потратить компьют на что угодно, и это даст преимущество, но у тебя может сразу быть маленькая пользовательская база. Если ты хочешь, чтобы твоим сервисом пользовались все, у тебя должно быть ДЁШЕВО. Когда Биллу Гейтсу говорили, что у него синий экран смерти наблюдается слишком часто, архитектура не очень, профи недовольны – он улыбался и отвечал, что у него самая дешёвая на рынке операционка, и желающие профи (которых крайне мало) пусть покупают UNIX, ось пополам (кто помнит эти великие операционные системы?), в итоге с Windows проконкурировал только бесплатный Linux (хотя и там надо было платить, но только за поддержку, а не за софт). С моделями искусственного интеллекта всё то же самое. OpenAI и даже Google будут давить ценой, Anthropic идёт (IMHO) по пути UNIX. Но был и альтернативный вариант: Audi зашла на авторынок ровно как “безопасные автомобили” (начиная с 1980 года, когда она сделала ставку на полный привод, и дальше пошла получать высшие рейтинги по безопасности). Так что бывает всяко, поведение рынка предсказать невозможно, а предсказать реакцию на него лучших предпринимателей тоже невозможно.
Победит же не конкретный проект, а Парето-фронт, там всё разляжется по сложной поверхности в пространстве довольно многих размерностей: (умность на классе задач, ибо совсем универсальной не бывает)x(автономность, не вся сводимая к умности)x(цена)x(очень по-разному понимаемая безопасность, например, квасной патриотизм будет именно тут наряду со страхом SkyNet)x(User eXperience).
