Опубликовано очередное обновление курса “Системная инженерия”, в этой версии переписан раздел “5. Эволюционная архитектура”. Уточнена терминология, добавлены ссылки на первоисточники, вписаны обновлённые примеры и более подробные объяснения. Всего переписано уже 70% курса. Я понимаю, что читать этот учебник будут, скорее, LLM, но всё-таки пишу в расчёте на живых студентов – хотя в конкретно этом учебнике роль spacing и interleaving много меньше, чем в начальных курсах. Ну, и я понимаю, что одним учебником темы системной инженерии не закроешь, поэтому считаю этот курс аннотированным справочником по литературе. Раздел по эволюционной архитектуре уж точно – там всего три десятка страниц получается на всю архитектурную премудрость, просто чтобы стало понятно, о чём там речь и какие книжки по архитектуре читать и как лучше пытать LLM про всё это, чтобы не запутаться (там ведь будет путаться и строительная архитектура, и эволюционные алгоритмы с архитектурами нейросетей, и многое что другое – получить чёткие ответы от LLM в этой предметной области пока нельзя, ибо “все слова уже заняты”, а LLM работает “по словам”, а не “по сути”, ну ровно как люди).
Вопрос, чего я жду для использования LLM. Чтобы писать свои тексты – ничего, регулярно использую. Лучше всего для моих целей идёт Gemini 2.0 Pro Experimental, очень крутая выдача. Следующий – Grok 3 beta, абсолютно адекватно. Claude у меня платная через телеграм, тоже ОК, но пользую редко. На последнем месте – платная GhatGPT. Это какое-то недоразумение: вроде ответы есть, но использовать их никак нельзя, выдаётся убогий клочок текста, и в нём сразу много ерунды, которую потом даже чистить не хочется. Похоже, что сетки тренируют на “олимпиадное программирование”, навык очень полезный для бенчмарков, типа как “победитель олимпиады”, но в моей работе-то надо совсем другое, мозги приставлять не к крутой логической/математической задаче с легко проверяемым ответом, а к вытаскиванию нужных типов объектов из огромной кучи сетевого мусора и отличать, например, архитектуру зданий и архитектуру нейросетей – не пропускать sustainability как основной архитектурный тренд в инженерии, это у строителей тренд. Ну чисто как наши студенты в начале обучения: кресты металлические, запятая, кресты католические). А вот чтобы выпускать LLM на студентов, я жду какого-нибудь удобного фреймворка с RAG – и отслеживаю то, что происходит вот тут: Telegram: Contact @llm_under_hood. При этом я уже дёргался поставить себе Cursor, чтобы потренироваться (давненько я не брал в руки шашек! А ведь в далёкой молодости меня считали суперпрограммистом, и даже среди читателей этих строк есть такие, кто такое помнит). Но опомнился в последнюю минуту – это же интересно, но это могу и не я делать. А вот переписывать “Системную инженерию”, а затем “Инженерию личности” кроме меня никто не будет. И я убеждён, что это таки сейчас надо делать, и делать надо мне. И я трачу на это full time, а всё остальное время читаю ленты про AI.
В четверг прошла вторая тренировка по мантре системного мышления. Как всегда, системы разной природы – разбирали видеоигры, ERP, безопасность. В этот раз тоже приходилось делать контринтуитивный ход на разбирательство с целевой системой, а не “нашей”. Ибо без целевой системы совершенно невозможно причинно-следственно объяснить, зачем и почему вообще нужна “наша” система. Это было так всегда на моих занятиях, а теперь так на всех тренировках. Времени одной тренировки, конечно, для понимания мало. На занятиях мы раз в пару недель разбирали ответ на вопрос “какую систему ты делаешь” – минут по сорок каждого, где-то тратили занятия четыре перед тем, как ответы стабилизировались. И тогда, конечно, был толк и было понимание того, как отвечать на такой вопрос в других проектах. Но на этих коротких тренировках хотя бы демонстрация, ибо тип рассуждения из онлайн-курсов не вычитывается, нужен пример из реальной жизни, пример разговора в реальном времени – и не какого-то там “учебного кейса”, а разговора про твою систему. Напомню, слайды тренировки – Training-2025_13mar25.pptx — Яндекс Диск, и там в них уже всякие ссылки на материалы (кроме, конечно, ссылок на материалы курса. Интересно, что большинство участников тренировки с курсами вполне знакомы, проходили их онлайн, и даже не раз. Другое дело, что тренируется употребление этого материала курса в дело, а не знание материала – похоже, знать-то все знают, а вот уметь – не очень, это и тренируем).
Я тут много писал про reinforcement learning (И ещё про обновление "Инженерии личности" в 2025: ailev — LiveJournal, Стадии водопадного инженерного процесса для сухих и мокрых нейросеток: ailev — LiveJournal), но в causal inference это только вторая ступенька – do-calculus. Если добавить контрфактуальность как окончательный третий шаг, то это будет causal reinforcement learning. “Intro to Causal RL”, https://causalai.net/r65.pdf (180 страниц). Ещё много литературы вот тут: https://crl.causalai.net/, это чистая теория, но вот пара книг – чуть более древняя Applied Causal Inference и чуть более свежая по casual ML – https://causalml-book.org/. Judea Pearl на эту тему: The application is obvious: to move from idealized, simulated environments (games, etc.) to the real world, where unobserved confounding is pervasive (https://x.com/yudapearl/status/1898928267840688198). Вот Bahrenboim обсуждает это с Nando de Freitas: “counterfactuals (level 3) of Pearl’s Hierarchy can be used for decision-making and can lead to dominant strategies over essentially any available RL strategy”, но дальше он там говорит, что “имитировать, не понимая, как сейчас – это хорошо, это линия Тьюринга с его тестом, ибо бенчмарк для интеллекта не построишь. Но нельзя же складывать лапки, это ж задача науки – понять про интеллект, понять про сознание”, https://x.com/eliasbareinboim/status/1898482783099531440. Nando de Freitas отвечает что да, если с интеллектом как-то разбираются по бенчмаркам, то нужно бы бенчмарки и для сознания – “We need benchmarks for each of these factors, eg attention schemas, self-awareness, social awareness, ethics & morality (empathy, compassion), internal monitoring (eg regulation and emotion), … and hopefully people will suggest more. Some might be hard to measure admittedly. I also think this could be important for causal modelling. To know that it was one who acted upon the world (level 2 interventional causality, RL) a very basic form of self-hood is needed”, https://x.com/NandoDF/status/1898462406793449840. Грубо говоря, вся эти причинная история связана с пониманием того, что есть личность, что есть агентность. И хорошо бы это замерять (и опять мы видим, что “сознание” пытаются переопределить технически в рамках какой-то школы мысли, что ни спец по какой-то дисциплине, то переопределятор “сознания”). Мне эта тема причинности важна, ибо надо учить людей (ну, и заодно и нежить) рассуждать и действовать не просто логически (что может быть полностью отвязано от ситуации в реальном мире), а причинно-логически – ровно как говорит Pearl. Вот тут Barenboim обсуждает самомоделирование и влияние знания о причинах на принятие решений – https://x.com/eliasbareinboim/status/1898928501719195758. И вот тут разворот на то, что есть понимающие в причинности “более агенты” и “менее агенты”, и что надо думать, как это замерять – важная архитектурная характеристика личности. Дальше выходы на:
– рассуждения про это “используем как эвристику, работает и ладно, теория подождёт” против “давайте всё-таки поймём”. Инженерия научна, инженерия не научна. И да, “расчёты по теории относительности для наших проектов не нужны, нам хватает и по Ньютону” – вот это тоже, “аппроксимации” по сравнению с SoTA. Тут понятно, что делать: строить Парето по полной стоимости владения “затраты BOPs (brain operations) на обучение и на рассуждения/выводы” и точности, вроде как рисуют сегодня для open source LLM, https://x.com/allen_ai/status/1900248895520903636/photo/1
– обучение рассуждениям о причинности в наших курсах (с поддержкой экзокортекса! Примеры тут уже есть, например, диаграмма причинности строится в рамках прохождения курса “Рациональная работа”, вот тут даже пример поста с такой диаграммой – https://systemsworld.club/t/kak-ya-osvoil-novyj-metod-raboty-analiz-tablichnyh-dannyh-s-programmirovaniem-na-russkom/). Дальше вопрос, до какого уровня учим, в каких местах курса это всё напоминаем (у меня напоминание, по большому счёту, аж в “Системной инженерии”, но не скажу, чтобы там было много, и вот сразу показан выход в практику. Но всё-таки). Всё-таки одно дело знать, что такое есть, другое дело – уверено повседневно пользоваться. Интуитивно-то все пользуются, фишка в том, чтобы неинтуитивно и с экзокортексом.
– переписывать “Инженерию личности” таки надо, и там в части про личность таки надо задать архитектурные характеристики для личности (ага, какие раньше были “требования качества”, что считать качественной личностью). Это как раз ходы на характеристики агентности в связи с моделированием себя. И да, бенчмарки, хорошо бы понимать, какие и как мерять – тема уже назрела. И как бенчмарки включать в затраты на обучение, чтобы снижать общую стоимость владения знанием.
Не думаю, что кто-то одолеет предыдущий абзац, но одну из мыслей не хотел бы потерять: бенчмарки на хотя бы двух конфликтующих характеристиках, Парето-границы. LLM ведь как люди, поэтому их оценивают:
– по батарее тестов на интеллект (чаще всего Elo, Elo rating system - Wikipedia, но LMSYS перешла от ELO к Bradley–Terry model - Wikipedia, и там тоже есть где разгуляться с выбором) – и эта шкала главная. Вот наших выпускников как померять при этом – непонятно, ибо все тесты на “олимпиадное программирование”. А мы всё-таки про причины-следствия в области коллективной разработки больше учим (но не все идут с этим в предпринимательство, рисковать не все любят, много общаться с людьми не все любят, а любят заниматься любимым делом – но делать это лучше. Как измерить?!).
– трудоёмкость обучения на заданное мастерство (FLOPs, сейчас там в районе единиц 1024, а передовики показывают 1023, тот же помянутый в предыдущем абзаце график https://x.com/allen_ai/status/1900248895520903636/photo/1. У нас сейчас примерно “год по паре часов в день”. Потраченное на обучение время как раз легко измерить.
– про модели Google любят показывать графики с показом мастерства против стоимости вывода (сразу в $), например, ♊🔥 Gemini 2 models: A new pareto frontier at price x performance. (Feb… | Huseyin Savas. Тут тоже интересно – хвастаться тем, что “наши создатели стоят дешевле, но в деле они умнее других с такой же ценой” как-то несподручно.
Очередной большой темой по AI становится reservoir computing, Reservoir computing - Wikipedia. Это алгоритмика, а аппаратурой для этой алгоритмики могут выступать самые разные нелинейные среды, в том числе нейроморфные, но и просто нейронные сети, как мы их сейчас знаем. Там всё “первые шаги”, типа “научили нейроны из мозга играть в понг, теперь давай научим играть гель в понг”, AI made of jelly ‘learns’ to play Pong — and improves with practice. И там происходит много всякого. Вот, например, “Reservoir Computing for Fast, Simplified Reinforcement Learning on Memory Tasks”, [2412.13093] Reservoir Computing for Fast, Simplified Reinforcement Learning on Memory Tasks, “A Method of Selective Attention for Reservoir Based Agents”, [2502.21229] A Method of Selective Attention for Reservoir Based Agents, “Meta-Learning to Explore via Memory Density Feedback”, [2503.02831] Meta-Learning to Explore via Memory Density Feedback. По стилю это всё напоминает статьи по deep learning первых дней, когда ещё не было больших языковых моделей и разговоры больше были про “архитектуры” с вечным выбором алгоритмов оптимизации и функций активации. Вот прямо запах больших прорывов из этой области. Ибо нейроморфные архитектуры – это x1000 по скорости и по энергоэффективности, но вот с алгоритмами на них туговато пока. И там, конечно, на стандартных машинках тоже это всё – вот, например, эксперименты на нейроморфном чипе Loihi 2, Principled neuromorphic reservoir computing | Nature Communications. LLM на тему reservoir computing только мычат, это вам не посчитать буковки в слове strawberry. Но что-то мне подсказывает, что следующий прорыв будет где-то в этом месте. Ибо в робота нейроморфное железо поставишь, а классическое – по энергии не пройдёшь. Всё-таки у мозга 30 ватт, надо ориентироваться на такие цифры. И на роботов, ибо “страна гениев в датацентре” как-то не очень похожа на embodied, extended, embedded, enactive интеллект.
Мы живём в удивительное время, когда человечество в развитых странах тупеет на глазах, а нежить умнеет – в целом же пока баланс: что население мозгами сдаёт, нежить подхватывает и даже с опережением, жизнь становится лучше. Вот поглядите график, насколько человечество тупеет (из Financial Times, остальные не менее убедительные картинки проще взять отсюда: https://x.com/jburnmurdoch/status/1900537267308937416):