Lytdybr -- от 11 июня 2025

ailev · 11.Июнь.2025 12:15:17

Переходный период от ШСМ к МИМ считаю для себя законченным, за это время (конец апреля – начало мая) написано про мастерскую инженеров-менеджеров и её программы развития:
– Мастерская инженеров-менеджеров, Мастерская инженеров-менеджеров: ailev — LiveJournal
– правки в руководства по системному мышлению, методологии, системной инженерии
– Почему “инженер-менеджер”, Почему "инженер-менеджер": ailev — LiveJournal
– Памятка по программе рабочего развития инженеров-менеджеров МИМ, Памятка по программе рабочего развития инженеров-менеджеров МИМ: ailev — LiveJournal
– Памятка по программе исследовательского развития инженеров-менеджеров МИМ, Памятка по программе исследовательского развития инженеров-менеджеров МИМ: ailev — LiveJournal
– Принципы квалифицирования инженеров-менеджеров – 2025, Принципы квалифицирования инженеров-менеджеров -- 2025: ailev — LiveJournal
– Рабочее развитие инженеров-менеджеров в МИМ: разбираем типовые “но”, Рабочее развитие инженеров-менеджеров в МИМ: разбираем типовые "но": ailev — LiveJournal

Продолжаю выполнять долгосрочные планы, приступил к переписке руководства по инженерии личности. Там из основных задач – это посадить инженерный процесс на надлежащее теоретическое основание (и тут deep learning, active inference, world as a neural net в сочетании с learning sciences и многослойными теориями управления/control), а также добавление уровня личности в целом (а не только мастерства) и более точная привязка к текущей версии системной инженерии (скажем, “архитектурные характеристики личности”, в том числе evolvability). И демифологизация всех этих “теорий сознания” и картезианского театра при попытках выдать модель личности “от первого лица”. А ещё open-endedness, ибо она в инженерии тоже есть, но в случае личности evolvability и отход от однократного прохождения какого-то жизненного цикла с гарантиями бесконечности развития – это главное. Часть текстов уже есть, часть текстов надо дописать, много чего переписать из имеющегося наново. По факту это full time теперь, и надолго, я думаю, что на всё лето.

В прошлый четверг провёл первый разбор по шагам системной подсказки (prompt, оно же “уравнение в типах”, мантра, канва, сюжет) в новой серии. Два интересных сюжета: опять всплыл сюжет про “вещизацию обязательственного права” и праксиологию, ибо второй раз уже пришёл трейдер, и там “кучкой денег-золота как удобным для обмена товаром” не обойдёшься, отсутствие какой-то надёжной праксиологической теории сказывается существенно. Всё-таки рассуждения в этой предметной области высокочастотного и крипто-трейдинга требуют какого-то владения мастерством праксиологического, экономического, правового, социологического рассуждения. Да, “у нас свечной заводик”, добывает “плохо понятно, что — какие-то обязательства каких-то агентов, вещные тут агенты, природа всего остального непонятна”, потом это как-то превращается в реальные деньги — и вот тут уже понятно, фиатные деньги очень условно, но можно представить золотом. Свечи, замечу, тоже заводик превращает в реальные деньги как товар, удобный для организации добровольных обменов (но товар!): часть денег затем уходит на сырьё, часть работникам, часть на поддержание “свечного сервера”, часть остаётся инвесторам, часть даже уходит клиентам (в виде скидок!). Поэтому “деньги превращаем в деньги” — ага, “свечи превращаем в свечи”, что-то не так с определением денег. Вот набор ссылок по линии размышлений, которую я предложил, чтобы как-то говорить об изменениях физического мира в ходе появления и исполнения обязательств (там главная проблема – grounding, ибо если нет надёжной привязки к физическому миру, то появляется многообразие трактовок “по разному понятых обязательств и по-разному понятых результатов их исполнения, по-разному понятых записей происходящего”), и надо бы как-нибудь сделать транскрипт моего рассказа об этом всём и написать какой-то текст (вытащить куски закрытого видео из чатов разборов я не могу по совокупности причин, даже передать результаты одного разбора участникам другого разбора):
– разобраться в аксиоматической природе праксиологии, это я писал вот тут, в недавней вставочке в руководство по методологии: Aisystant. Ибо мы тут затрагиваем не только экономику, но и право, и немного социологию (права собственности, например, это которые признаются всеми вокруг, а не тобой самим – поэтому без социологии тоже нельзя)
– метафизическая (в хорошем смысле слова!), светоносная (по Ф.Бэкону), аксиоматическая основа тут могла бы быть, например, speech act theory Speech act - Wikipedia,
– дальше там ход на инженерию language action perspective Language/action perspective - Wikipedia,
– дальше можно вспомнить про корпоративные теории, построенные этой language action perspective, чтобы учитывать “обязательства” (поручения, приёмки сделанного, исполнения поручений, договорённости о том, кто какие права имеет игнорировать поручения и прочее такое — все эти “транзакции”), например, “Enterprise Ontology” от Dietz и Muelder (второе издание, есть у нас в заветной папочке для стажёров)
– дальше можно разбираться уже хоть с каким-то понятийным аппаратом, что там за проблема с обязательственным правом по сравнению с вещным, что позволяет махинации по обязательственным правам держать на уровне во много раз выше, чем махинации по вещным правам (граундинг там затруднён, поэтому все рассуждения и срываются — защиты прав в судах чёткой нет, побеждает более говорливый, а не более правый. Количество мошенничеств в регистраторах ценных бумаг в разы выше, чем количество мошенничеств в депозитариях, и это не случайно). Когда-то мы даже всерьёз обсуждали, что надо переписывать гражданский кодекс, чтобы как-то улучшить ситуацию с обязательственным правом (эта линия рассуждений начиналась ещё с Альберта Сокина, затем мы это обсуждали в программе eRussia с Соловяненко, Цереном Цереновым и Виктором Агроскиным, следы остались как проблема Информационного кодекса, Ход тогда был на создание Информационного кодекса, Утром Концепция с принципами, вечером -- Информационный кодекс.: inforeg — LiveJournal (круглый стол в Минэкономразвития в августе 2006), обоснования см. в http://elrussia.ru/files/61334/informreg2005.doc (это ещё 2005 год) – и с тех пор немного изменилось, воз и ныне там. Вот, например, я в 2016 году писал об этих проблемах в ходе модного тогда обсуждения блокчейна: Не пишите законы, пишите код. И обучайте код.: ailev — LiveJournal, за девять лет не так уж много изменилось, хотя развитию блокчейна и криптовалют хорошо поспособствовал случившийся “кирдык” из текста по ссылке, но всё одно “в крипто” деньги держат минимальное время “пересылки через границы/запреты” (один из сервисов, которым я пользовался, жаловался на “пять конвертаций”, ибо риски запредельны – и 20% комиссия как более-менее верно отражает эти риски: проблемы ты получаешь с вдесятеро бОльшей вероятностью, чем при хоть какой-то правовой защищённости).
– это всё, конечно, предмет лабораторных работ, но лабораторию делать не нужно, ибо туда придут не спецы исследовать и разрабатывать, а не-спецы учиться (у кого?!), так уже много раз было. Поэтому идём по пути, который предложил я ещё в 2016 году в упомянутой статье: " Года через три машинный интеллект будет находить проблемы в текущем корпусе законов не хуже, чем студент-первокурсник юрфака, а лет через пять это будет уже третьекурсник. Через десять лет машинный интеллект с этой кодификацией и сам справится", это следующий год, 2026. Вот прямо дать очередной “самой свежей LLM” этот абзац как тему DeepResearch или DeepSearch, и почитать, что он скажет.

Ещё одна интересная идея с четвергового обзора прошлой недели - это идея “пропущенного сервера”, восстанавливалась цепочка рассуждений для связи “нашей системы нашего проекта” (помню, что хотел менять эту терминологию, ибо все путаются) с целевой системой общего проекта-предприятия (enterprise). Первое препятствие – это различить сервер и сервис (для программистов это оказывается очень и очень трудно, ибо у них и служба – сервис, и услуга – сервис, опять же, возможно мне надо в руководстве по системному мышлению и методологии чётче продавить вот это server-service различие в терминологии, подумать над синонимами, которые не поощряют эту ошибку). Итак, мы находим целевую систему, которую развивает система-предприятие своим сервисом. В этом плане предприятие – сервер, оказывающий сервис. Затем мы в предприятии выделяем корпоративную информационную систему как “основной сервер” со вставками туда людей-сотрудников (считаем их “ещё не автоматизированными, но уже заведомо будущими роботами”), которая и осуществляет этот сервис. Далее просим назвать корпоративную информационную систему по её основной функции (типа ERP, CRM и т.д. плюс слово “система”, ибо ERP и CRM это функции/сервисы, а исполняет эти функции сервер). Контроль: должны звучать слова предметной области сервиса, а не “общие”, и даже слово “система” желательно опустить (но тут уж традиция такая, что можно и оставить). Дальше считать, что все программисты предприятия в графе создателей этой XYZ (там наверняка будет ещё и какое-то трёхбуквенное сокращение) системы как составной части предприятия (там же ещё сотрудники, подрядчики и т.д. кроме этого корпоративного софта), но всё-таки у них именно софт, а не всё предприятие “наша система”. Далее, конечно, надо разбираться с тем, где там эти программисты: ответственны за весь этот софт в целом, за его какой-то модуль, или они в графе создателей (например, инженеры внутренней платформы разработки для этой нашей XYZ-системы). Но пока не названа явно XYZ-система, причинно-следственное рассуждение затруднено – а чаще всего она не названа явно, названы только её отдельные части (те же ERP, CRM и т.д.). Помним, что там же ещё нужно обсуждать рост выпуска, то есть понять, что там за оплачиваемые акты/шаги/операции/действия сервиса, иначе трудно увязать будет с ростом зарабатывания денег при помощи улучшений сервиса.

Так что эти четверги для меня очень интересное рабочее развлечение, оттуда выходит много интересных идей. Следующая встреча в серии уже объявлена в этот четверг, завтра: Telegram: View @system_school.

Полный вчерашний рабочий день беседовал с парочкой LLM о структуре руководства по инженерии личности. Я теперь очень много знаю про инженерию личности и возможные ошибки в понимании тамошних идей инженерами, ибо много объяснял LLM, что там надо сделать и в чём ошибки её предложений. Я там пытался сделать следующий ход: брал таблицу описания термодинамических систем, эволюционирующих систем, обучающихся/training-научаемых/learning систем ML из “Thermodynamics of evolution and the origin of life”, https://www.pnas.org/doi/full/10.1073/pnas.2120042119, затем просил расширить на агентов из active inference, инженерные киберфизические системы и на обучающиеся-научаемые системы из learning sciences в их когнитивной части. Затем просил навести логику: прежде всего не путать описания времени создания и времени работы, реальные замеры и ожидания, реальные объекты и описания объектов. Потом предложить самоочевидный/самодокументируемый русскоязычный термин для понятия из каждой строчки таблицы. Дальше предложить идею оглавления по инженерии личности, которая учитывает идеи системной инженерии, программной эволюционной инженерии, инженерии систем на базе нейросетей с одной стороны, но ещё и решение “философской проблемы человека” (о, на этом шаге LLM сходили с ума и превращали более-менее разумное руководство в учебник философии, приходилось с этим жёстко бороться – но на вопросы от гуманитариев всё-таки должны быть какие-то ответы), а также проблемы трёх описаний личности (из первой позиции восприятия с научением/learning, из третьей “научной” позиции восприятия с обучением/training, из нормативной/деонтической позиции “хранителей скреп” с их “воспитанием/alignment”). Но главное - надо было основные понятия на русском языке из таблички концептуального синтеза (Розеттский камень) использовать прямо в оглавлении. Это всё для того, чтобы не терять связи с естественнонаучной картиной мира (и там локальные представления, выходящие на современную математику), learning sciences (и там аспекты обучения-научения) и инженерии (общий подход к созданию и развитию чего угодно, в данном случае личности и мастерства), а также показывать, как это всё решает любимые проблемы гуманитариев. Конечно, там каждый шаг предлагал покритиковать внутренней команде экспертов LLM (по одному эксперту на каждую колонку таблицы, плюс логик для контроля типов и ещё один методист для критики собственно руководства, ибо первый методист - это ж роль для learning science эксперта, он входит в “команду таблицы”). Общая конструкция, конечно, дико вся дребезжит, но концептуальные синтезы (например, eco-evo-devo) – они все дребезжат, но зато дают более-менее существенное сжатие информации о мире. Если хотите, повторите это моё приключение с руководством по инженерии личности, можете начать прямо с этого абзаца с вашей любимой LLM (но сразу скажу, что результаты сильно зависят от ума модели. У меня были o3 и Gemini Pro 2.5 свежайшей версии. Gemini в этом плане много приятней, ибо не экономит токены. Но, конечно, эти модели могли бы быть и поумнее, так что надо будет всё повторить где-то после нового года, когда выйдут следующие версии).

Конечно, попутно всплыло много интересных моментов, например, выбор слова для квантованных представлений информации на входе обучаемой системы: отсчёт/sample, дискрет, квант, кванта, факт, факта, единица, токен, элемент, замер/measurement, показание/reading, значение/value, данное/datum, наблюдение/observation, даже лексема или символ (но это уж совсем маргинально, больше для текстового потока) но ведь ещё и квантованное действие на выходе: шаг/step, акт/act, действие/action, ход/move, операция/operation и даже решение/decision с акцентом на то, что это выбранное в ходе “думания” описаниие действия. И там много ещё синонимов, например, часто всплывает сигнал (который и на входе бывает, и на выходе). И мощный тренд в deep learning на всякие visual tokens и даже в AnyGPT “всё что угодно токены” ([2402.12226] AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling).

Читал-думал всякое разное про нейросети, там прогресс неостановим. “Читал пейджер, много думал”, кто-нибудь помнит, почему это было так смешно? “Читал телеграм, много думал” уже не так смешно, а уж “смотрел ютьюб, много думал” – это не смешно, а грустно. Одой из тем для размышлений было сжатие информации как основа понимания (а понимание причин-следствий – это предсказание, предвосхищение, ожидание, мера непонимания – промах, “ошибка предсказания”, невязка). Сжатие – это нахождение закономерностей/паттернов в огромном массиве данных о мире (токенов, квантов входного потока), чтобы представить их в более компактной, эффективной форме. Например, вместо того чтобы запоминать последовательность “1, 2, 3, 4, 5, … 100”, можно “сжать” ее до правила “ряд целых чисел от 1 до 100”. Это правило и есть сжатая модель данных. Сжатие это и есть моделирование, оно требует понимания. Чтобы хорошо “сжать данные” (“отмоделировать мир”: перевести мир в его описание, то есть данные, то есть выполнить замеры), нужно понять их структуру. Чтобы предсказать следующее слово в осмысленном тексте, нужно кроме грамматики и контекста ещё что-то знать о мире, ибо текст является какой-то моделью мира (в том числе, возможно, моделью воображаемого мира, например, моделью поведения математических объектов). Вот эта идея моделирования-сжатия-предсказания как раз центральная. И там, конечно, распределённые представления и локальные представления, и какой-то баланс в этом сжатии, и дальше мы переходим ко второй линии улучшения сжатия, оно же улучшение моделирования, улучшения обучения/научения:

Смотрел ещё на сюжеты новостей по основным путям улучшения обучения/training-научения/learning:
– улучшение архитектуры и аппаратуры (и там ходы на MoE, тут же квантовые компьютеры как долгосрочные ожидания и уже в работе всяческие мамбы и диффузии в гибридизации с трансформерами, а для NI, то есть “natural intelligence”, это экзокортекс и разделение труда), а ещё работа с памятью – бюджетирование памяти “LongRoPE2: Near-Lossless LLM Context Window Scaling”, [2502.20082] LongRoPE2: Near-Lossless LLM Context Window Scaling и вброс с episodic memory “Position: Episodic Memory is the Missing Piece for Long-Term LLM Agents”, и там сдвиг внимания разработчиков и пользователей с “model size” на “context и storage size”, “гонка мегапикселей закончена”, начинаются другие гонки.
– работа с данными (для хорошего обучения их надо “больше, чем оптимально”, но они должны быть правильными – вот только что обзор DataRater от НейроСапунова про то, что надо научить сеть отбирать те данные, которые учат, а которые не учат – выкидывать: Telegram: View @gonzo_ML_podcasts, [2505.17895] DataRater: Meta-Learned Dataset Curation и дистилляция датасетов Telegram: View @gonzo_ML). Это означает, что наши все руководства можно было бы прогнать на “недостаточность-избыточность” и где-то сократить, а где-то дополнить. Это ж “данные для обучения нейросети”, это неважно, что мокрой. И, конечно, там ещё важно про “примеры ризонинга”, которые должны быть в каком-то объёме уже при обучении сетки до шагов RL.
– сюда же к “сколько данных достаточно” близки, но всё-таки отличаются немного работы по reasoning time “интуитивного размышления против вариантов CoT”, и там RL со скачками генерализации, грокание (что-то типа того же, как на помойку отправили Шиншиллу: обучать больше “оптимума” оказалось правильным), это в [2505.24864] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, ProRL, long-horizon RL for reasoning и тут же улучшение RL через “один обучающий пример”, RLVR [2504.20571] Reinforcement Learning for Reasoning in Large Language Models with One Training Example. Обе работы показывают рост точности при обучении “после выхода на плато промахов”. Общий тренд выделения ресурсов на RL-компьют в тексте The State of Reinforcement Learning for LLM Reasoning (но это апрель, а работы ProRL и RLVR были в мае-июне 2025). Вывод тут такой, что “в обучении налёт часов обучения – важен, насмотренность – важна, и они более чем важны, когда кажется, что вышел на плато”. И изменение онтологии: live curriculum policy network now counts as a fourth trainable component beside policy, value and reward networks. Там ещё работы “Self-Evolving Curriculum for LLM Reasoning” (SEC) [2505.14970] Self-Evolving Curriculum for LLM Reasoning и повышение скорости сходимости на 83% DASH, “Effective Reinforcement Learning for Reasoning in Language Models”, [2505.17218] Effective Reinforcement Learning for Reasoning in Language Models. Both SEC and DASH replicate the post-saturation gain story of RLVR/ProRL, now with explicit curriculum or compute tricks rather than brute iterations, confirming that the “grokking after the plateau” phenomenon is robust. Кашу маслом не испортишь, правильное оперантное формирование aka дрессировка – её для грокинга надо много больше, чем для “вроде научили”. У танцоров тоже так: давно замечено, что они регулярно выходят на плато “достижений нет”, а потом идут прорывы, если они не опускают руки. И вроде как везде так, только мало обсуждается. И ещё можно подкручивать функцию наград в RL, там тоже удивительные результаты, маленькие модельки начинают быть умней больших: “Inference-Time Scaling for Generalist Reward Modeling”, http:s//arxiv.org/abs/2504.02495. А ещё вот это важно: отказ от внешней награды, INTUITOR replaces external rewards in Group Relative Policy Optimization (GRPO) with self-certainty scores, enabling fully unsupervised learning. Experiments demonstrate that INTUITOR matches GRPO’s performance on mathematical benchmarks while achieving superior generalization to out-ofdomain tasks like code generation, without requiring gold solutions or test cases, это Reinforcement Learning from Internal Feedback (RLIF) из “Learning to Reason without External Rewards”, https://arxiv.org/2505.18590.
– Собственно “думание”, разные варианты CoT, включая CoT в latent space (вроде coconut, вот уже давал майский обзор развития темы – [2505.16782] Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning, а вот тут говорится, что можно ещё и на 82% уменьшить длину рассуждений с просадкой точности меньше 5%, этому тоже можно обучить/научиться – CoLaR, [2505.16552] Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains). У людей это прежде всего собранность: умение удержать внимание на длительном рассуждении. Там, где ученик будет думать пару секунд, эксперт неожиданно может задуматься на пару часов – и решить проблему (скажем, математики могут решать какую-то проблему годами, физики так же, а в жизни это почему-то не норма. Где там оптимум выделения ресурса компьюта мокрой нейросетки на решение проблемы в реальной жизни, “сесть и пораскинуть мозгами” – это на сколько секунд, минут, дней, лет, как найти оптимум? В целом кажется, что мышление трудно, поэтому тратится на него времени неоптимально – меньше нужного, “давайте попробуем заняться чем-нибудь другим” говорит человеку внутренняя обезьяна Тима Урбана).
– Ещё интересна линия на инженерный процесс, тут можно выделить “RAGOps: Operating and Managing Retrieval-Augmented Generation Pipelines”, [2506.03401] RAGOps: Operating and Managing Retrieval-Augmented Generation Pipelines, formalises a DevOps-like lifecycle for RAG, highlighting data-change testing and continuous retraining as first-class ops concerns, от LLMOps идём к RAGOps. И там “Memory & RAG in the loop” вдобавок к post-training мерам улучшения результатов вдобавок к увеличению времени на RL. И NVIDIA Blackwell clusters по факту изменили цены на training (NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom), поэтому можно смелее пересматривать бюджеты на RL – и обсуждаются не столько “компьют будет не несколько месяцев, а несколько недель”, сколько “компьют на более мощной технике может идти годы” (бюджет на RL пересчитывается существенно в большую сторону, на пару порядков).
– отдельно надо упомянуть open-endedness как новацию “традиционного обучения”: одновременная генерация как данных, так и задач, так и архитектур с выходом на бесконечное саморазвитие агента (тут уж не LLM, а агент сразу). Ключевое тут: намеренное привнесение новизны (все бесконечно ищут stepping stones) и тем самым “жизненный цикл не заканчивается, пока есть компьют, то есть жизненного цикла нету, бесконечное развитие”. И тут выход в реальный мир и отсутствие проблемы “всё выучил, новой литературы нет” (data engine, “горшочек, вари”), наука с проблематизацией goldilock и потом решением самосозданных проблем вся тут, робототехника с выходом в физичность и тем самым grounding тоже тут, “AI, который себя улучшает” (liftoff) тоже тут. То есть эти работы надо было бы приписывать сразу во все предыдущие пункты, а тут они принципиально вместе, поэтому выношу в отдельный путь улучшения обучения-научения. трек. С апреля по июнь вышла серия работ, которые “эксперименты” игрушечного масштаба (все эти EnhancedPOET и Fun Search, раньше часто об этом писал) выводят на масштаб больших языковых моделей. Главные тут – это Darwin Gödel Machine (только ленивый не отписался: “нейросеть ищет патчи к собственному коду”, [2505.22954] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents), “A Self-Improving Coding Agent”, с performance gains from 17% to 53% on a random subset of SWE Bench Verified, [2504.15228] A Self-Improving Coding Agent, AlphaEvolve (тут тоже только ленивый не отписался, там же “найдены такие штуки, которые ещё не найдены людьми”, AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms - Google DeepMind), очередные работы с PILLAR ( For the first time, the results demonstrate the potential advantages of purpose-focused OEL [open-ended learning] over state-of-the-art OEL methods, enabling robots to handle unstructured environments while steering their learning toward knowledge acquisition relevant to users, это из “Focusing Robot Open-Ended Reinforcement Learning Through Users’ Purposes”), [2503.12579] Focusing Robot Open-Ended Reinforcement Learning Through Users' Purposes. Вместо “трудного и лёгкого” бенчмарка теперь должен быть непрерывно пополняющийся “дарвиновский” архив новизны “Re-evaluating Open-ended Evaluation of Large Language Models”, [2502.20170] Re-evaluating Open-ended Evaluation of Large Language Models, и это всё ещё “как в науке, у которой проблемы известны” надо уметь реплицировать, чтобы не было как в современной психологии и социологии “проблемы репликации”, ведь природа агентов будет всё время меняться и у них будут самые разные ступеньки развития в самых разных средах “с нюансами”. Программный манифест “автоматизированного познания” 25 апреля 2025 на ICLR в качестве invited talk прочёл Tim Rocktaeschel, ICLR Invited Talk Open-Endedness, World Models, and the Automation of Innovation, где собрано много чего про open-endedness последего времени, в том числе “мы на пороге перехода от обучения на данных к обучению тому, на каких данных учиться – это центральный фокус AI исследований”. Хотя это и очень ограниченное высказывание, у нас это просто второе направление, а не “все вместе”. Но в докладе об open-endedness надо поминать и это тоже!

Мне эта open-endedness важна, чтобы подчеркнуть “иную культуру”, другое мировоззрение: как и в нашей мастерской инженеров-менеджеров, у этого направления нет “продукта в конечной форме”, “готовой версии модели”, ибо агенты там постоянно развиваются, “нет жизненного цикла”, бесконечное развитие и акценты на “решение проблем” другие, “решение очередных проблем, завтра проблемы будут потруднее”. Прохождение бесконечной игры с регулярными боссами в конце игрового уровня, игра не кончается (пока справляешься с боссами, конечно), а боссы десятка уровня назад кажутся тебе очень лёгкими (но когда эти проблемы решал, ничего лёгкого, конечно, не было). Никакого “завтра расслабишься, победил”, наоборот – “победил, теперь всё будет труднее!”. Вот надо это брать, разворачивать тамошние идеи – и строить нашу людскую культуру бесконечного развития, ибо в текущем варианте lifelong learning ничего конкретного нет, кроме лозунгов “вечного обучения”, а ведь надо уметь рассказывать и про принципиальную важность новизны, и про goldilock трудность задач, и про генератор задач и генератор решений, и про “проблемы будут всегда, в этом и смысл”, и про stepping stone, и про “люди – универсальные объяснители” как самая универсальная (пока) вещь на свете, и т.д.

Картинку про бесконечное обучение сочинила o3, объяснила так: "центральная фигура - органический робот, вокруг - всё ключевое: нейродерево (архитектуры + данные), шестерёночный оуроборос (длинный RL-цикл), пиктограммы кристалла-MoE, «колодца» Blackwell и раскрытой книги-RAGOps в угловых панелях, фоновая спираль-лестница символизирует open-endedness. Вот так, бесхитростно, “я художник, я так вижу”: