Где живёт рок-н-ролл в развитии
Когда-то я спросил Евгения Козловского, который был тогда главным редактором “Компьютерры”: почему Компьютерра перестала писать о процессорах, а начала писать о видеокартах? Год назад в каждом номере было пару статей про процессоры, а сейчас ни одной статьи про процессоры, зато по паре статей о видеокартах! Давайте вспомним, что это был за период. Back when Nvidia was founded in 1993, there were a staggering 80 companies making graphics chips, Huang explained in his keynote at the SC11 supercomputing conference in Seattle on Tuesday. “Our idea was: ‘Wouldn’t it be fun to build graphics chips so we could play video games in 3D?’” he said. “That was it. The entire business plan.”, Nvidia: An unintended exascale-super innovator • The Register, 2011, а рынок AI NVIDIA заметит в 2012 – ибо он возник от новой характеристики у этих видеокарт: вывода массовых параллельных вычислений на отдельный API, речь тут о CUDA. CUDA - это 2006 год анонс, 2007 год в продукте, и никто не считал это важной характеристикой, ибо это не было на Парето-фронте видеокарт для видеоигр, это была попытка открыть новый Парето-фронт для компьютерного инженерного моделирования. Широким массам это было неинтересно, но вот дальше случился AI и CUDA оказалось ключевым фактором взлёта NVIDIA. Всё это с великой судьбой видеокарт в целом и NVIDIA в частности в развитии AI на тот момент было ещё неизвестно, но компьютерная пресса на них уже переключилась, и это было любопытно.
Ответ Козловского мне был в том, что рок-н-ролл новостей из процессоров ушёл: они развиваются строго по расписанию, гонка мегагерц происходит, архитектурно там всё устаканилось, новых характеристик не появляется (они появлялись! безопасность, интегрированные ускорители с их системами команд и т.д., но это не воспринималось как “новое, существенный прирост потребительских качеств”, эти характеристики были понятны только спецам, определялись в специальных бенчмарках, пользователю были невидимы), игроков стало сильно поменьше и нет перспективных возможных лидеров, которые вдруг да выпрыгнут, то есть новостей нет, ибо прогресс идёт по расписанию. О прибытии поездов по расписанию не пишут. А вот с видеокартами всё по-другому: абсолютно разные архитектуры, на первый план выходят разные характеристики, до чёртика конкурентов (десятки! как футбольных команд!), поэтому новости есть – всё интересно.
Народное внимание, а за ним и новости идут туда, где большая неопределённость с потенциальным влиянием на большое число народу. Валерий Бардин часто мне напоминал, что в России примерно 40 тысяч журналистов, которые имеют те же мозги, что и окружающий их народ, отличаются они только тем, что не молчат, а пишут, так что это 40 тысяч датчиков того, что находится в мозгах у населения в целом. Ничего не меняется, если это блогеры по тематике AI. Писать они будут про exploration в техноэволюции, а не про exploitation. “Гонка токенов в секунду” – это временный предмет интереса, как и любая подобная гонка. Известный анекдот, что в паспорте автомобиля Роллс-Ройс в графе “мощность мотора” стояло “достаточная”. Все гонки гигагерц, мегапикселей, контекстов заканчиваются ровно вот таким.
Сейчас я бы протрактовал предмет интереса так, что новости кончаются, когда от проблематизации и поиска stepping stone какая-то отрасль переходит к бесконечному поиску решений вместо того, чтобы множить число фронтов, привносить новые характеристики (я об этом подробно говорил на семинаре “Развитие для развитых”). В истории с процессорами и видеокартами они там все с процессорами вышли на Парето-фронт и фронт медленно пополз. А в видеокартах там фронты множились, ибо непонятно было, какой из фронтов потом поползёт. Аналогичные процессы шли в софте: журналы публиковали каждый месяц таблички рейтингов текстовых редакторов (кто помнит WordPerfect?) и электронных таблиц (Lotus 1-2-3, кто помнит?), в них был участник Майкрософт. Майкрософт выигрывал “по очкам”: они там сообразили, что по принципам составления этих таблиц надо просто тупо реализовывать все фичи, чтобы получить первое место. Качество фич было неважным, количество – важным. У кого больше ресурсов на большее число фич, тот и выиграл. Ресурсы у Майкрософта были, он выиграл своими продуктами в каждой категории, занял первое место – и журналам стало неинтересно публиковать одну и ту же табличку из месяца в месяц. Далее это всё было объединено в MS Office путём предложения cut/paste из чего угодно во что угодно внутри Office. И всё, с этого момента новости на этом фронте немедленно кончились, журналы перестали отслеживать, что там происходит. MS потом обижался: “в народном понимании у нас до сих пор Office 97, но это же не так! Он же абсолютно другой по возможностям!”. Да, он с другими IDE сидел на всё том же Парето-фронте как IWE (interactive writing environment).
Оформление Парето-фронта для слоя IWE (сейчас там главным образом IDE)
Ситуация с AI-агентами и IDE (integrated development environment) ощутимо сдвинулась где-то в конце декабря-середине января: там произошла конвергенция (термин этот любит в таком смысле упоминать Tony Seba) довольно большого числа технологий: пришло новое поколение GPU-железа, оно дало новое поколение более умных LLM, эти новые LLM поддержали скоростную разработку своей инструментальной и интерфейсной (к людям и другому софту) обвязки: агентов и приложений с агентами. И это всё для выпуска очень разнообразного, но одного продукта: всё это пока поддерживает workflow для программистов.
Мне кажется, что как раз вот прямо сейчас можно уже думать о поддержке AI-агентами каких-то workflow и в непрограммистской жизни, переходить от IDE к IWE и переименовывать writing на более общее working (не называть же это просто IE – Integrated Environment, оно же с учётом возможностей выхода в интернет и internet explorer, а имя такого продукта лучше не вспоминать). Приложение с AI-агентом, внутри которого LLM и есть доступ к инструментам вроде Python, браузеров и всёго остального (возможно, где-то во внешнем мире это будут станки с ЧПУ, “слесарные инструменты”) начинает обсуждаться как представитель с нового Парето-фронта, так что всё внимание мира направлено сейчас именно сюда.
IWE может поддерживать какой-то более широкий класс процессов, кроме разработки кода, может выходить и в проблематизацию. Даже проблематизация чего-то в реальной жизни существенно отличается по workflow от программистского “написал тест как постановку задачи, написал код, выдал песочницу для экспериментов, кручу теперь в цикле, отлаживаюсь”.
Эффекты в real life по сравнению с эффектами в программистской “песочнице в контейнере” требуют совершенно других действий для их характеризации и учёта, совершенно других действий по отладке. Например, чтобы ваш корпоративный софт заработал и начал наносить непоправимую пользу, вам надо обучить его пользователей, чтобы они нажимали кнопки на этом новом софте, а не какие-то совсем другие кнопки, или вообще не нажимали кнопок. Пользователей в “песочницу в контейнере” не запихнёшь, чтобы отладить совместную работу софта и пользователей. И поэтому начинают вылезать совсем другие характеристики инструментария для такой работы (например, “безопасность” как очень широко понимаемая, ибо в техноэволюции паразитизма никто не отменял и атаки паразитов будут неминуемы, равно как всякие вопросы про “чьё это”, напомню пост “Мойдодыр и политическая философия интернетвещизма”, Мойдодыр и политическая философия интернетвещизма: ailev — ЖЖ, 2014). Я об этом тоже говорил на семинаре по “развитию для развитых”: вам надо постоянно модифицировать ваш уже давно работающий код, чтобы он решал какую-то вновь появившуюся проблему, ибо ещё и мир дрейфует, проблемы меняются.
На эту же тему любит писать LeCun, говоря о том, что реальный AI должен действовать в мире и наблюдать эффекты. И выхваченный флоридскими авторами из прошлого абзаца кусок FPF бьёт в эту же точку: решение вчерашней проблемы не является решением, “осетрина или первой свежести, или не осетрина”. А дальше можно сдвигаться и на другие инженерные процессы, которые не так просто автоматизируются без роботов. И вот тут сегодняшние IDE могут оказаться на Парето-фронте более-менее универсальных IWE как одна из точек. Коммодитизация придёт и на этот уровень.
Каков сейчас новый AI-стек и где в нём рок-н-ролл
С AI сейчас явно происходит сдвиг народного и новостного интереса на вот этот новый AI-стек:
– LLM (и там сейчас не рок-н-ролл, хотя для спецов скорость изменений всё так же велика, “способность породить нетривиальную идею” как раз тут, способность переобучаться – тут, и много чего ещё тут так и осталось. Но – не рок-н-ролл, выход новой модели LLM, новой модели смартфона, новой модели автомобиля – явления одного порядка, “там опять что-то выпустили, такое же, но чуть лучше, глазом разница незаметна”. Но для исследователей разница может быть заметна! На вопрос “сколько будет 2*2” все модели дадут одинаковый ответ, а вот вопрос “что там у нас с квантовой гравитацией, а ну-ка реши его” – вот тут придётся поинтересоваться, нет ли уже GPT-7 в вашем AI-агенте).
– AI-агент (и рок-н-ролл сейчас там на пике, но всё так быстро, что эта часть марлезонского рыночного балета пролетела буквально за пару лет, вот прямо сейчас рок-н-ролл уходит – драйв будет на следующем слое, а эти AI-агенты будут “стандартными кирпичиками” для него, тут будет главным больше вопросы стандартизации – все эти skills и MCP как раз про эту стандартизацию).
– AI-приложение, то самое IWE. Пока тут мы видим IDE в плотной привязкой к Git, и это узкопрограммистская история, а программистов только 12% от числа всех инженеров сейчас, и они пытаются пока обслужить сами себя. Но жизнь начинает стремительно меняться и тут.
Сначала все соревновались в разных архитектурах нейросеток, затем у нас случились LLM и в них ярко проявились достоинства архитектуры трансформера, но там ещё были какие-то интересности (диффузионные модели, самбы, мировые модели). Рок-н-ролл оттуда ушёл, когда LLM оказались внутри агентской архитектуры – и гонка пошла за обвязку: каким образом сделать динамический контекст, чтобы его размер не жал (поэтому новости про RLM – Recursive Language Model, Recursive Language Models in ADK - Community Articles - Google Developer forums – прошли почти незамеченными в массовых лентах, это “что-то там внтури, массовой аудитории на пользовательском интерфейсе не видно”), какой tooling добавить, какой RAG добавить, как суметь упихнуть мультимодальность в интерфейс. А что же LLM? По всем бенчам они отличаются на единицы процентов, выход новой модели перестал быть новостью. Да, круто, но важно только для специалистов, а не широкой публикой. Широкая публика по факту не замечает выхода новой модели, простым глазом уже не отследишь, что там стало круче, результат виден только по точным бенчмаркам. А там как с процессорами: больше уже зависит от обвязки, чем от процессора.
LLM сами по себе всё активней и активней в мышлении работают со своим внутренним окружением (tolling), оно пока главным образом “внутрифирменное”, во внешний мир их не выпускают по совокупности причин, держат как зверей в зоопарке, как психов в психбольнице (ай, неполиткорректно получилось, замените на sandboxing, containment, supervised environments). Интересно, как меняется способ рассуждений GPT-5.2 Pro со временем. Уже пару дней это выглядит в начале каждого такта диалога примерно та: “ща я поищу в файле. Чёрт, поиск ничего не приносит, как будто файла нет! Но пользователь говорит, что файл есть. Наверное, они там просто не успели отиндексировать большой файл. Правила говорят, что надо использовать поиск, но я лучше прокину это и использую gripgrep. Чёрт, они не установили gripgrep, тогда я по-простецки, grep - и этого мне должно быть достаточно. О, всё нашлось! Да, упомянутые пользователем проблемы там и впрямь есть, но давай я поищу SoTA в интернете, чтобы быть уверенным”. Это же прямая реализация поговорки Фарадея: “настоящий физик должен уметь буравить пилой и пилить буравом”, с поиском affordances у нынешних моделей всё в порядке. Ещё изменилось то, что теперь присылается сразу правленный файл, хотя это и не запрошено (просится патч) – и он таки корректно правленный! А вот патч для этой правки иногда страдает (ибо правки делаются в файле, а потом патч создаётся уже из этого файла “творчески”).
Рок-н-ролл последние полгода был в агентах: обвязке вокруг LLM. Вот прямо сейчас мне кажется, что эта история “новостей с агентами” подходит к концу. Я делаю такой радикальный вывод по публикации о новых примитивах для долгоидущих вычислений агентов OpenAI – Shell + Skills + Compaction: Tips for long-running agents that do real work. Там решаются проблемы умного поджатия контекста, огромных сроков вычислений, контейнеры для установки какого-то нужного прикладного софта, поддержка skills (и первый этот skill – “продвинутый пользователь компьютера”, то есть умение работать с электронными таблицами). Для чего? Первая фраза там – We’re shifting from single-turn assistants to long-running agents that handle real knowledge work: reading large datasets, updating files, and writing apps.
По идее, новый Парето-фронт AI-агентов оказывается сформирован, интерфейсные примитивы стандартизованы, далее идёт коммодитизация, а конкуренция и связанный с ней рок-н-ролл оттуда собирается уйти “наверх по стеку”. “Новостей в AI-агентах нет, прогресс по плану есть” – гонка пойдёт за надёжность, безопасность, стандартные интерфейсы и прочие архитектурные характеристики, а не “зубодробительные фичи, вау как круто”. Инженеры будут соревноваться друг с другом по малоизвестным широкой аудитории бенчмаркам, а пользователи пользоваться чем-то с Парето-фронта (чаще дешёвым, чем лучшим). Но класс продукта уже понятен, основные игроки ясны.
Дальше должна быть небольшая по времени (ибо в 2026 году всё не быстро, а очень быстро – сингулярность вроде как уже всполохами за окошком присутствует) гонка приложений IWE, которые являются обёрткой для агентов. Тут интересно, ибо никаких ресурсов не хватает одной компании удерживать всю вертикаль от изготовления чистого кремния до пользовательских приложений (но хотят этого, разумеется, все).
Пример трёхслойного AI-стека Codex
С учётом перехода к новым моделям вроде GPT-5.3 (пока мы видели только GPT-5.3-Codex) становится понятен новый AI-стек. У OpenAI он весь называется Codex, ориентирован пока строго на программистов и представляет собой три абсолютно разных сущности Codex:
– LLM GPT-5.3-Codex, доступна в разных агентах, а агенты доступны в разных приложениях-оболочках. Модель важна, ибо она даёт возможность “догадаться”. Увы, “догадка” не берётся длинным размышлением. Длинным размышлением берётся только проверка догадок. Для более крутых догадок берётся новая более крутая модель. Длинное размышление просто позволяет убрать догадки-галлюцинации.
– агента Codex, который дирижирует заполнением контекста, системными промптами, размышлениями LLM и управляет инструментами. Агент доступен в приложениях (IDE вроде того же Cursor или VS Code), из web-UI, из интерфейса командной строки.
– приложение-IDE Codex App, доступное пока только в macOS. По сути, это пользовательский интерфейс к агенту Codex, но он даёт подключения разных инструментов вроде возможности хождения в интернет, использования языков программирования (обычно сейчас это Питон, но не обязательно), организации доступов к файловой системе, микрофону, камерам и прочему окружению. Пока это IDE, но развитие неминуемо даст IWE (у Anthropic уже есть первые эксперименты с Claude Cowork, вот ждём-с такого от OpenAI).
Этого достаточно, чтобы программисты быстро-быстро разрабатывали следующее поколение любого софта, который они придумают. Сингулярность в одной предметной области, но ключевой. И это означает, что рок-н-ролл
Что-то мне подсказывает, что после перехода с чисто программистской GPT-5.3-Codex на GPT-5.3 (это нужно для более крутых идей) в режиме Pro (то есть без ограничений по длине думания, это нужно для “безгаллюцинаций”) для текущего стека и решении проблем с операционной системой по безопасной в ней работе (грубо говоря, надо пользовательскую Windows всю превратить в систему версионирования вроде Git) мы окажемся уже по ту сторону сингулярности уже во всех областях.
Дальше рок-н-ролл будет только в мультиагентских историях, перехода от мышления-in-the-small в мышление in-the-large и прихват в этом как мышления людей, так и мышления не очень людей. Коллективные проекты, коллективное мышление, коллективные истории, уход от птолемеевского мышления. OpenAI уже опять и снова интересуется роботами.
Алгоритм выявления того, где рок-н-ролл ещё жив
Можно ли поручить отслеживание всех этих новостей агентам? Почему бы и нет, надо им описать алгоритм на базе гипотез (я аккуратен! у меня в тексте всё только гипотезы!) из этого моего поста:
- Рисуем технологический AI-стек (много раз это уже делал, вот мой пример из текста “Болваны для искусственного интеллекта”, 2017, Болваны для искусственного интеллекта: ailev — ЖЖ. Learning Algorithm Platworm там – это как раз LLM, Cognitive Architecture Platform - это сейчас AI-агент, а IWE и другие варианты специализированных обёрток для AI-агента – это Application (Domain) Platform, и пометка, что инженерией надо заниматься всего прикладного, а вот AI-агенты это как раз “болваны для искусственного интеллекта” как commodity). Возьмите какой-то более продвинутый вариант, можно упростить (ибо у меня упор был в 2017 году на нижние уровни стека, а сейчас интересны верхние уровни): железо, базовые LLM, агенты с их оркестрацией инструмента, приложения с поддержкой каких-то прикладных workflow, embodiment/роботы, и далее ходы на коллективный и гибридный (люди, роботы, датацентры) интеллект.
- Берём окно времени (скажем сейчас можно брать 3 месяца, в следующем году месяц, дальше счёт пойдёт на дни – сингулярность! Поглядите на статью Accelerating dynamics of collective attention | Nature Communications – Accelerating dynamics of collective attention, это ещё апрель 2019, уже тогда было заметно, а сейчас и подавно) и замеряем для каждого слоя стека характеристики “разогрева-остывания”: скорость появления новых характеристик (скажем, через появление новых бенчей), удалённость этих бенчей от хорошо заметных пользователям характеристик, вариативность архитектур на текущем Парето-фронте, плотность интеграционных релизов (коннекторы, адаптеры, предложение интерфейсных стандартов), работу scaling law (прирост качества от добавки ресурсов). Это характеристики для оценки “новизны как таковой” (она всегда будет) и “видимости новизны широким массам” (а вот это уже про “рок-н-ролл там умер”).
- Дальше можно всё сильно огрубить: собрать для каждого слоя скор “рок-н-ролла” как какой-нибудь нормированный агрегат из замеров характеристик каждого пункта (это против правила “не схлопывай пространство характеристик в скаляр”, но пока пренебрежём им) и сравнить значение с предыдущими окнами: если для данного слоя “рок-н-ролл” растёт, то он ещё не ушёл. Если “рок-н-ролл” падает, то ожидаем его роста на следующем уровне выше. Закон эволюции говорит (https://www.pnas.org/doi/10.1073/pnas.1807890115), что рост сложности за счёт увеличения числа уровней неизбежен, новые уровни всегда будут – и их ожидаем как новое место для роста рок-н-ролла.
- Проверь по характеристикам внимания: доля заголовков новостей, вакансий в стартапах, инвестиций в стартапы, самих новых стартапов по каждому слою. Сдвиг фронтира и в самом деле идёт, когда рок-н-ролл в предыдущем слое пошёл вниз и это становится commodity, а основная битва за захват рынка и внимание направляются на следующий, более высокий слой. Алгоритмы кластеризации по большим массивам данных уже давно известны, это не так трудно сделать.
- Не дай инерции себя остановить: обнови стек, добавь новые характеристики, которые всплыли при перемещении на следующий уровень (они обычно отражают новые проблемы, поиск нового Парето-фронта). И обнови лексику всего этого (как видите, лексика с 2017 года, когда я описывал этот AI-стек, поменялась: язык живой, он тоже меняется).
И тут сразу становится понятным, почему вроде “всё развивается”, но “новости не обо всём”, народное внимание стремится вверх по системным уровням, а вниз оно устремляется тогда, когда где-нибудь в самом низу появляется что-то радикально новое (помните “поколения ЭВМ” с их лампами, затем дискретными транзисторами, затем интегральными схемами, а затем СБИС? И что там было в итоге с компьютерными архитектурами в целом от этих сдвижек?).
Где ожидать рок-н-ролла в ближайшем будущем
Далее темы, которые очень скоро будут главными темами новостей:
– энергия для компьюта и мощности компьюта, которые могут порвать текущий Парето-фронт с его “не очень быстро, очень материалоёмко и очень энергозатратно” (хотя это всё и кажется сегодня уже решённым вопросом, но гонка ведь не остановится). Собственно, это уже обсуждается: “датацентры в гигаваттах и где брать эти гигаватты”, это уже целый год во всех новостях. Об этом пишут даже программисты, хотя их обычно интересуют только новые чипы, но линия “чипы – датацентры – где взять энергию” очень прозрачная.
– роботы, которые ещё толком не сказали своего слова. Мировые модели, многоуровневое управление, рои роботов, а также self-replication (роботы делают станки и собирают из них фабрики, которые и делают роботов, не рожать же им! И где-то в этот цикл будут обязательно включены лаборатории, ибо не одну и ту же модель этим фабрикам выпускать!).
– разные нейроинтерфейсы, продолжение киборгизации. Зачем носить смартфон в кармане, когда его можно носить в теле?!
– альтернативные физические архитектуры (вроде квантовых компьютеров) для нейросетевых архитектур. В пределе – “мы вам по-быстрому соберём физический экспертимент, в котором ваше вычисление пройдёт и быстро, и незатратно по материалам, и без особых затрат энергии”.
– альтернативные источники энергии. Термояд явно не решит всех проблем, и в вот тут вывод датацентров в космос на солнечные батареи – уже разворачивающаяся история. Продолжение этой истории в ходе на сферу Дайсона, и этот вопрос в разных лентах активно обсуждается как “решаемый сейчас”, а не “решаемый через сотни лет”.
– решение “проблем человечества”, например, биологическое бессмертие и дальше – искусственная матка. Раз уж лучшие представители рода хотят делать AI-агентов, но не хотят делать детей, надо отдать это машинам. При этом опять же, вопрос: если на фабрике, то каких человеков выпускать (какой геном, сколько рук-ног, надо ли на всём теле иметь шерсть стредней жёсткости, а под ней ритуальные татуировки “прямо из генов”, какой им IQ делать, как подправить имунную систему, вшивать ли в мозг лояльность к властям и первичные навыки каких-то умений на уровне врождённых) и зачем (просто рост популяции биологических особей, но зачем? Купить себе для ухода в старости робота или дорастить ребёнка? И кто будет доращивать, ибо сейчас-то в школу и вуз доращивать по факту отдаём).
– социальные проблемы никуда при этом не деваются. Даже войны никто не отменял на это время! Остроконечникам и тупоконечникам всегда есть о чём поговорить по душам на языке силы!
Жить в эту пору прекрасную придётся и мне, и тебе. Добро пожаловать в киберпанк сейчас и рибофанк чуть позже, реализовался именно этот жанр, а чуть позже будет и рибофанк с говорящими кошечками и людьми с жабрами.
