13 марта 2025 буду проводить очередную тренировку по первому шагу системной мантры (Тренировка "Вы пойдёте к топ-менеджеру?" или "Барышня-мадам".: ailev — LiveJournal), объявление о записи появится в профильных чатах. Группа всего 5 человек, прошлый набор прошёл за 5 часов, поглядим, как будет в этот раз. Изменения:
– только онлайн (из пятерых до офиса в прошлый раз добрался только один человек)
– домашнее задание: пост с письменным изложением “лифтового теста” (одна-две-три фразы) в порядке “мышления письмом” и проверка на критерии (материалы – про сложность обоснований мокрыми и сухими нейросетками Инженерные обоснования мокрыми и сухими нейросетками: ailev — LiveJournal, а также аргументы про важность мышления письмом – Не пишешь -- не думаешь, не общаешься -- не в клубе, не в культуре.: ailev — LiveJournal).
Написал в “Системную инженерию” зубодробительный подраздел “Функциональное проектирование”, получилось более чем плотно. В курсе «Методология», обсуждалось функционирование – какими методами работают создатели, меняя окружающий мир. Какая угодно система (в том числе целевая!) у нас – создатель, если мы будем рассматривать, как она меняет своё окружение. Не надо забывать, что создателем мы можем считать как разумного агента (агента в узком смысле слова), так и не слишком разумного – автомат или даже косное вещество, например, молоток, который заколачивает гвоздь. И в графе создателей одни создатели в ходе работы создают других создателей, для которых это будет время создания, а не время работы. На эту тему было достаточно материалов и в курсе «Системное мышление», и в курсе «Методология». Но вот чего в этих курсах ещё не было рассказано, так это про роль прикладного методолога предметной области (мы рассматривали именно её в курсе «Методологии», в отличие от роли фундаментального методолога-исследователя), она же роль функционального проектировщика/designer, она же роль функционального архитектора, процессного инженера, инженера поведения системы (systems behavior engineer), проектировщика оргвозможности (capability designer), специалиста динамики предметной области (systems dynamics specialist, в биологии проектирует метаболические пути), инженер операционного синтеза (operational synthesis engineer, на смарт фабриках проектирует автоматизированную сборочную линию), лидер оркестровки процессов (process orchestration lead, координирует рабочие процессы), архитектор хода работ (workflow architect, проектирует цепь поставок, supply chain), аналитик функциональных потоков (functional flow analyst, оптимизирует перетоки в электрических сетях – балансирует спрос и предложение) – это далеко не полный список названий инженерной роли для того агента (человека, AI, организации), что занимается вопросом «как оно будет работать», вопросом метода работы системы.
К числу фундаментальных методов мышления относится рациональность – и там в том числе про причины-следствия. В “Интеллект-стеке” подробненько про теорию, в “Рациональной работе” дан учебный материал: как рационально думать про причины-следствия. Но надо где-то чуть подробней давать методы такого мышления в рабочих проектах. Фундаментальная рациональность нужна всем, но где давать прикладную рациональность? Мне кажется, что про объяснения надо давать в материалах по прикладной методологии предметной области, работе функционального проектировщика (functional designer): описание поведения системы, её функциональности, ответы на вопросы “почему система успешна (будет работать, как ожидается)”, “Почему система не успешна (не работает, как ожидается, или не будет работать, как ожидается)”. Это в части инженерных обоснований (argument maps уже там), но ещё и в части troubleshootings, поиск “почему система не работает, как ожидается”. Всё это связано ещё и с формулированием “как ожидается”, функциональным проектированием – и там результаты или в виде функциональной модели системы (“принципиальной схемы”), или сразу в виде тестов внешнего поведения. И ещё маленький фрагментик по “как измерить всё что угодно”. У нас в курсах получился больше эпистемологический уклон “на объяснения в исследованиях”, как в университетах, поэтому такой провал в заземлении в реальных инженерных ситуациях. А ведь мало того, мало того, что инженеры понимали про существование лестницы причинности и контрфактуальности при описании функциональных характеристик систем самой разной природы, надо чтобы они умели строить рассуждения с объяснениями причин и следствий – в том числе моделировать их в виде графов причинности. Как и описаний функциональности, приведённых в предыдущем подразделе, методов описания причинности, за каждым из которых стоит какая-то нотация, за которой стоят какие-то моделеры – множество. Вот только несколько из них:
• Деревья текущей реальности Голдратта (current reality trees) – часть Теории Ограничений, разработанная Eliyahu Goldratt. Они используются чаще всего для выявления узких мест в рабочих процессах, хотя метод и носит общий характер. Ключевая терминология привязана к «нежелательным эффектам» (поэтому просто применять в производственных проектах, сразу понятно, что и как делать), сам метод качественный (без количественных оценок вероятностей), граф причинности там – дерево.
• Структурные причинная модель (SCM, structural causal model) , разработанные Judea Pearl, выражаются направленными ациклическими графами (DAG, более общий вид графа, чем дерево, ибо у узла может быть больше одного родителя, а в дереве – только один), используются чаще всего в социальных науках, включая экономику и психологию, а также медицине и сельском хозяйстве. Этот метод количественный, он тоже очень общий, а ещё он крайне абстрактен и поэтому его чаще используют в исследовательских проектах, а не производственных/инженерных. Но у этого метода есть интересные плюсы: расчёты по нему могут подтвердить или опровергнуть какие-то гипотезы (например, гипотезы о направлении стрелки причинности в корреляции). Структурные причинные модели сегодня – это SoTA причинного моделирования , но они довольно редко используются в инженерии, ибо их использование требует исследовательской квалификации.
• Диаграмма причинных циклов (CLD, causal loop diagram) используются в системной динамике для визуализации обратных связей и взаимодействий в системе. Это не совсем прямое описание причин и следствий, скорее, описание множества взаимодействий, причём с лагами относительно друг друга – это моделирование изменений во времени. Применение в бизнесе (моделирование роста и уменьшения размера компаний), экономике, экологии, социальных науках. Несмотря на то, что системная динамика сама – количественный метод, CLD – качественный инструмент, помогающий понять, как переменные влияют друг на друга через обратные связи во времени .
• Анализ дерева отказов (FTA, fault tree analysis) используется в инженерии для анализа причин системных сбоев в аэрокосмической промышленности, ядерной энергетике, химической промышленности и прочих отраслях, где нужно оценивать надёжность системы. Помогает выявить потенциальные точки отказа и их последствия, улучшая надежность и безопасность систем .
• … множество других методов моделирования причинности, как общих (Rubin causal model , Bayesian networks ), так и более частных, поддержанных самыми разными общими и частными нотациями выражения причинности вроде часто встречающихся в инженерии диаграмм Ishikawa и диаграмм «почему-потому» (why-because) для выяснения причин аварий/инцидентов.
Обсуждали на методсовете что-то типа операционной мантры, где тренируется мышление о работе в привязке к “глобальному максимуму”. Конечно, это как-то пересекается с “распожаризацией” (которая по большому счёту – lean, “не делать лишнего”) и “с чего начать” (управление конфигурацией, чтобы уменьшить число коллизий). Тем не менее, там свой предмет, может быть что-то типа:
– определить цель (по Голдратту это «деньги сейчас и в будущем», как встречный денежный поток натуральному потоку выпуска). У нас —целевой предмет работ (выпуск) с ходом ход на производные от целевой системы – проход/скорость выпуска как первая производная, ускорение как вторая, рывок/удар как третья)
– определить путь с рабочими станциями как контактами (иногда – в метафоре «путешествия» с контактами). Контактное/производственное время против координационного времени
– определить свои места (я как исполняющий роли каких-то рабочих станций, действующий работами по каким-то методам) и причинно-следственное влияние на выпуск каждой из моих работ. Это мы смотрим очередь моих работ: что там вообще надо приоритизировать (lean главным образом тут – стык с мантрой lean/распожаризации).
– найти ограничение (ибо нам надо понимать, на критической ли мы цепи с нашими работами)
оценить каждую из своих работ по влиянию на выпуск (причинно-следственные отношения)
– если мы – ограничение, доводим до окружающих, что им надо подстроиться (что самое трудное), пока не удастся умощниться – иногда этого хватает. И как-то умощниться (снять ограничение: добавить себе производительности). Тут не “просто работа”, а сразу выход в оргразвитие (хотя бы себя).
– если оказались на критической цепи, то работа приоритетна, со всем остальным – низкий приоритет (то есть «поздний старт»), но мониторим (ибо именно наша работа, если её не исключили по lean может в любой момент оказаться новым ограничением, критическая цепь быстро меняется)
Особенности социальных сетей: поглядел на статистику анонсов моих постов в ЖЖ за последнюю неделю. Пост про мышление письмом Не пишешь -- не думаешь, не общаешься -- не в клубе, не в культуре.: ailev — LiveJournal получил ноль “реакций” (лайков, огней и прочих оценок), зато его перепостили 25 раз, а вот пост про новости AI Начало марта 2025 в AI, заметки по слому мирового порядка: ailev — LiveJournal – всего 14 раз, тоже без всяких лайков. Там где лайков побольше, перепостов поменьше (похоже, лайки – это “художественность”, перепосты – “полезность”). Минимальное число перепостов у тех тем, которые я считаю для себя самыми важными: темы курсов организационного развития – усиление интеллекта, инженерия, менеджмент (хотя про менеджмент я последние полгода мало пишу). А максимальный читательский интерес оказывается – личное развитие: как встать с дивана и пойти что-то сделать (вырастить у себя агентность), как развернуть экзокортекс и таки начать им пользоваться (вот то же “мышление письмом”). При этом у меня на очереди в очередной раз переписка “Инженерии личности”, но она ж мной мыслится про другое: это книга инженера личности, учителя, “как учить других”, а максимальный спрос на материалы “как учить себя”. Тешу себя мыслью, что с какого-то момента люди соображают, что “учить других” и “учить себя” – это один и тот же курс. И продолжаю писать “для себя”, об этом только что было в Не пишешь -- не думаешь, не общаешься -- не в клубе, не в культуре.: ailev — LiveJournal.
Продолжаем смотреть материалы, которые вроде бы про улучшение обучения AI, но помогают многое что понять и улучшить в обучении мокрых нейронных сеток (и, повторюсь – обучение мокрых нейронных сеток тут как “учить других”, так и “учить себя”):
– “Predictive Data Selection: The Data That Predicts Is the Data That Teaches”, [2503.00808] Predictive Data Selection: The Data That Predicts Is the Data That Teaches. Давно понятно, что ключом к обучению являются качественные данные, textbooks are is all you need ([2306.11644] Textbooks Are All You Need) положил начало огромному числу исследований. “Лучше меньше, да лучше” – на мусорных данных получается мусорное качество обучения. Но как понять, какие данные являются не мусорными? Дело ведь не в том, что данные должны быть безошибочными. В работе [2404.09937] Compression Represents Intelligence Linearly было сделано наблюдение: Viewing language models as compressors, we show that the “intelligence” of language models as reflected by benchmark scores is almost linearly correlates with their ability to compress external text corpora. Дальше взяли данные – и выбрали по нормализованным потерям сжатия (compression efficiency). Получили 10x reduction in compute requirements при pretrain. Это означает, что при правильном учебнике и задачах можно ожидать x10 уменьшения времени обучения и для мокрых нейронных сеток, и есть какие-то намётки, в каком направлении выбирать эти тексты. Можно, например, в качестве начального приближения взять предложенный алгоритм preSelect и попробовать поработать с текстами учебников-задачников. Это, конечно, не отменяет обучения с учётом кривых забывания для мокрых нейросеток, но это можно делать на более качественных текстах, а качество оценивать не “по правилам” или “по эвристикам”, “по интуиции”, а “по замерам”. Вот “замерять” качество наших курсов по preSelect для начала, взялся бы кто за такое.
– “Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs”, [2503.01307] Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs. Какие-то особенности нейросеток делают их умнее – какие? Есть four key cognitive behaviors – verification, backtracking, subgoal setting, and backward chaining – that both expert human problem solvers and successful language models employ. Статья определяет priming как “подготовка разума показом примеров” в ходе обучения. И находит, что если показывать в ходе обучения примеры методов сильного мышления (показывать примеры проверки правильности, возвратов к развилкам, постановки промежуточных целей и планирование обратным ходом), то дальше легко учить RL и получать reasoning. А если не показывать – то увы. Статья показывает, что мало иметь правильные ответы в обучающих данных, то есть textbook is not is all you need: если нет демонстрации приёмов мышления, то мышление “не заводится”. Это всё можно легко перенести на людей. В части проверки правильности показать людям разобранные примеры, где кто-то перепроверяет свои шаги или подтверждает промежуточные результаты. В части возврата к развилке дать примеры, где человек сталкивается с тупиком, осмысливает ошибку (это дико трудно! Обсуждали “А чо такова?”, Пока слышим "а чо такова?", обучения практикам мышления не будет: ailev — LiveJournal – пришли ровно к таким же выводам, надо научить признавать ошибку ошибкой просто показывая много примеров такого признания, иначе не берётся) и пробует другую гипотезу. В части постановки промежуточных целей показывать примеры разделения сложной задачи на простые “шаги”. В части обратного планирования показать решения, построенные от конечной цели к началу – исходя из желаемого результата планирование шагов обратным ходом. Когда это показывать? Как всегда, тут выбор: или учить специально только этому (учить мышлению), или потихоньку перед каждой новой темой показывать, как можно думать – и дальше вставлять в текст задания как чеклист мышления: “проверял правильность шагов, разбивал задачу на части, возвращался после обнаружения ошибки и ставил другую промежуточную цель, пробовал обратное планирование”, в надежде на то, что когда-нибудь это генерализуется. Далее – тренировка с преподом (RL/дрессировка/“оперантное формирование”, рассматривали в Ещё про обновление "Инженерии личности" в 2025: ailev — LiveJournal с внутренней, внешней и общественной позиций, в Стадии водопадного инженерного процесса для сухих и мокрых нейросеток: ailev — LiveJournal отдельным пятым подразделом RL в curriculum learning и в Как связаны инженерия и теория эволюции: инженерия нейросеток как eco-evo-devo.: ailev — LiveJournal как “Изготовление (evo), а затем три шага обучения (devo)”). А ещё для понимания всего написанного надо заметить, что психологическая priming theory (https://en.wikipedia.org/wiki/Priming_(psychology)) была фальсифицирована, Kahneman объявил исследования прайминга “effectively dead”. В обучении LLM (и в статье) значение priming – показ примеров мышления перед RL, а в психологии – unconscious activation of cognitive representations that supposedly influence later behavior. Варианты переноса тех методов выхода на сильное мышление, что предложены в статье для LLM, на людей больше опираются на вменяемость: предложение способа мышления в явном виде, затем тренировка (deliberative practice), в том числе скаффолдинг (scaffold – “временная конструкция”, “строительные леса”: от специально сочинённых лёгких примеров к трудным, нарастание сложности). И да, те же проблемы, что с LLM: не любая нейросеть к этому способна, трансформеры способны больше, чем какие-то другие варианты, генетически люди тоже бывают разные в плане способностей, но всё-таки они все более способны, чем кошки.
Читаю ли я про политику? Да, читаю. Особенно меня забавляет скорость, с которой люди “переобуваются”. Эта нетвёрдолобость людей, заметим, положительное качество: умение заметить ошибку, вернуться – и начать с новой гипотезы (возможно, такой же ошибочной). Тут протрамповские заголовки появились даже в NYT, чего в принципе нельзя было представить ещё месяц назад. При этом “по приборам” сильно отличается от “субъективного восприятия”: читаешь про “речь была полностью провальна”, а потом смотришь на разницу в проценте поддержки нынешней администрации (не только Трампа, но и Вэнса, и Руби) в опросах “до-после” и понимаешь таки результаты. Мне это напоминает, как фейсбук в далёкой своей молодости “испортил ленту” – начал ставить там то, что выбиралось алгоритмами, а не то, что выбирали себе люди. Цукерберг писал, что под окнами штаб-квартиры были круглосуточные демонстрации против, а он и команда смотрели на показатели времени, которое люди проводили на сайте – и видели, как это время существенно выросло, так что реакция на этот шум под окнами была соответствующей. Тот же крест на лбу Рубио и рассуждения, что негоже ему свой католицизм проявлять публично: забыли, что ли, что президенты США при вступлении в должность публично клянутся именно на Библии (а то и двух сразу, казённой и семейной, как нынешний президент)? Это ж тамошнее проявление “скреп”, наверняка ему это зачлось “в народе”. Пока этот левацкий коленвал не будет выправлен стохастически (у левых – чёткая идеология, они гнут коленвал всегда в одну сторону, у правых – у всех разное, иногда модернистское, иногда консервативное, иногда глупое популистское, лишь бы не левое, они тут статистически работают каждый в свою сторону, но в среднем все в разные стороны, поэтому коленвал имеет шанс распрямиться), позитивные результаты будут очевидны, поддержка будет. К тому же прямо сейчас левых бьют лозунгом “грабь награбленное”: отнимают деньги налогоплательщиков. У меня тут много есть чего сказать (да, с тарифами тут – полный идиотизм, себя надо сильно не любить и сильно не понимать экономику), но пока только порадуюсь за США: к Ливанову у меня осталась претензия – обещал разогнать РАН, но не разогнал, а тут разгоняют и министерство образования и в существенной мере обрезают финансирование левой науки. А ещё мне в глаза бросились всякие радужные значки, флаги горячих точек планеты и всякое такое, которые поисчезали с имён людей в X.com – я смотрел пару дней назад, и не мог понять, что ж не так в ленте по искусственному интеллекту, а это просто имена стали именами, без символики вроде “хочешь похудеть – спроси меня как!” на разные левые (во всех смыслах этого слова) темы.
Много видео современных антропоморфных роботов в обзоре текущей недели – https://x.com/adcock_brett/status/1898775567312273702. Нынешние LLM – это цветочки. Если к ним добавить небольшой взвод, роту, батальон (как бы научиться говорить об армиях клонов количественно без военной терминологии?) антропоморфных роботов, будут какие-то ягодки. Всё нынешнее вроде как острополитическое – это рябь на воде цивилизации, мелкие циклы гомеостаза левого-правого (дрейф влево, похоже, неизбежен, равно как потом периоды жёсткого отката от этой левизны). Приход AI в форме LLM – вот это уже качественный скачок в истории человечества, изменение мира, как мы его знали, а приход антропоморфных (пока, дальше будут варианты, хотя суперсобаки уже есть) роботов как 4E AI (embedded, embodied, extended, enactive AI) по $20тыс. за умную-разумную штучку – это тоже качественный скачок, история при этом уже не совсем человечества. Ну, или понятие “человека” с биологического вида перенесём на “достаточно разумные существа”. В связи с этим помним про “благо всех чувствующих существ” и не пропускаем: в gonzo-обзорах обсуждается разум осьминогов: с Telegram.
Ещё одна политическая тема – это климатические изменения. Как вы наверняка заметили, у меня тут полный скепсис по поводу устойчивости тренда глобального потепления. Вот тут очередное исследование по климату, “Distinct roles for precession, obliquity, and eccentricity in Pleistocene 100-kyr glacial cycles”, https://www.science.org/doi/10.1126/science.adp3491. Найдено чёткое соответствие обледенений и небольших изменений в земной орбите. Our results suggest that ~100-kyr glacial cycles of the mid- to late Pleistocene are largely deterministic, allowing us to predict the occurrence and duration of all deglacial and interglacial periods over the past 900 kyr on the basis of orbital phasing alone. This permits us to make first-order estimates about the natural future of Earth’s climate in the hypothetical absence of CO2 forcing resulting from human activities. Текст за пейволлом, поэтому дальнейшие подробности тут: Scientists establish link between Earth's orbital shifts and ice age cycles. In the absence of human-driven greenhouse gas emissions, Earth would currently be in the middle of a stable interglacial period, with the next ice age expected to begin in about 10,000 years. “The pattern we found is so reproducible that we were able to make an accurate prediction of when each interglacial period of the past million years or so would occur and how long each would last,” Barker noted. “This confirms that Earth’s natural climate changes over tens of thousands of years follow predictable cycles, rather than occurring randomly.”. Дальше они там очень аккуратно высказываются о влиянии людей на климат (кто кого сборет – слон или кит, хватит ли влияния людей побороть космические силы), но research team aims to use their findings to create a benchmark for Earth’s natural climate over the next 10,000 to 20,000 years. By calibrating past climate changes and integrating them with climate model simulations, they hope to quantify the full extent of human influence on the climate. “Now we know that climate is largely predictable over these long timescales, we can actually use past changes to inform us about what could happen in the future,” Barker [первый автор исследования] added. “This is something we couldn’t do before with the level of confidence that our new analysis provides.” Картинка из работы: