Position paper про "длинногоризонтное мышление" (long-CoT) как мышление письмом/моделированием (1/2)

Я позавчера пожаловался на то, что наши инженеры-менеджеры не так уж хорошо удерживают структуру рассуждений в длинных текстах (lytdybr: ailev — ЖЖ): “Похоже, что надо отдельно учить “длинным точным письменным рассуждениям”, мы этому недоучиваем. Нужна какая-то теория про тексты, и я займусь этим буквально сегодня-завтра, чтобы обсудить на лаборатории по рабочему развитию: идеи совместного рассмотрения управления точностью текста, мышления письмом/моделированием на стадии “как из заметок собрать связный длинный текст и как убедиться, что он связный”, рассказа о длинных текстах от David Deutsch и Alan Kay и разбора “молекулярной теории рассуждений” из “The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning”, [2601.06002] The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning. Вот на эту последнюю работу я пялился ещё в январе (она мелькнула в лентах), сегодня утром мне на неё ткнули в чате поддержки программы исследовательского развития (Telegram: View @modelcollect), и пока я писал эти строки (и кое-что уже прикидывал на эту тему), вышел gonzo-обзор, Telegram: View @gonzo_ML. Так что я тут опять приостановлю своё МИМописание (pun intended) и потрачу денёк-другой на разбирательство содержания вот этого всего перечисленного. AI-агенты, конечно, научатся речам с управляемой точностью и написанию длинных эссе, но кто-то должен научить и людей, которые будут беседовать с AI-агентами”.

“Длинные тексты” очень хитры по своему устройству. Я когда-то уже обсуждал это как “гиперкниготексты” – различал “удобство для письма” (справочники, wiki, энциклопедии) и “удобство для понимания” (книжки для чтения, ибо энциклопедии не читают) – Гиперкниготексты: ailev — ЖЖ, далёкий 2003 год! С тех пор мы стали все умнее, но проблема “длинных текстов” продолжает беспокоить – и дело даже не в инструменте/экзокортексе, а в самом понимании, как там черновик превращается в беловик, как связано мышление для получения результата-как-в-энциклопедии (методологическая работа) и мышление для получения понимаемого-результата-как-в-учебнике (методическая работа).

Сказано – сделано. Я потратил два дня (timeboxing: когда время вышло, задача считается решённой настолько, насколько успевает решиться). TL;DR для меня: публикую задел по “длинным рассуждениям с использованием памяти в локальных представлениях, aka long-CoT”, обзывая его “position paper”, а развивать это всё буду потом, ибо оказалось, что там существенно нужны паттерны мышления, которые будут хорошо проработаны в ходе выполнения плана по FPF от 1 февраля 2026 (Начинаем февраль 2026: громадьё планов по FPF: ailev — ЖЖ): понятие архитектуры, архитектурные характеристики, граф трансдукций и функциональные описания (функциональная архитектура). Это оказалось ключевым. Заодно сегодня-завтра выйдет GPT-5.3 и через месяцок-другой выйдет Codex App для Windows, так что работа с большими текстами будет попроще. Поэтому я делаю просто дамп текущего “задела”, пусть его поизучают искусственные интеллекты. Я не думаю, что кто-то будет подробно разбираться с такими длинными и сложными текстами, я сегодня обсуждал основные идеи этого текста у нас на встрече в лаборатории рабочего развития, но людей такой квалификации для обсуждения очень немного – а уж у кого хватает времени возиться с подобными сыроватыми идеями – так и совсем нет, один я. А потом? Потом я использую вот этот “задел” для развития FPF, пополню число паттернов и поправлю уже имеющиеся тамошние паттерны.

Текста много – поэтому два поста. Не поверите, но от LLM там не так уж много, всё своими ручками вколачивал, а что касается Markdown, так я решил, что буду и в ЖЖ сам его руками писать, так что уже несколько постов у меня перечисления вместо "-- " начинаются с "* ".

Position paper про “длинногоризонтное мышление” (long-CoT) как мышление письмом/моделированием и компиляция итогового эссе

Этот текст вносит несколько идей, связанных с long-CoT:

  • онтология, восходящая к обсуждению рассуждений как метода (ход на методологические описания, разделяющие метод и работы, а также промежуточные рабочие продукты вроде черновиков и конечные результаты метода вроде эссе), а также онтология, вводящая роли автора процесса/метода рассуждений, автора рассуждения, автора “компиляции” в итоговое представление, понимающего читателя. Тем самым long-CoT как “трасса рассуждений” (онтологическая сущность может оказаться довольно сложной для “трассы”) относится к самым разным понятиям, можно поднимать лексическую точность разговора, делать mapping разных теорий к нейтральной лексике (хотя лексика не предлагается в явном виде, но онтология обсуждается).
  • обсуждение тезиса “длина CoT и длина текста – это прокси для сложной структуры” как переход к архитектуре, чья предметная область как раз – обсуждение структуры (ход на эпиплексию, а не перплексию). Архитектурные характеристики разных long-CoT в отличие от характеристик пользы. Объяснения и рассуждения как эволюционирующие сущности, следовательно, у нас тут evolutionary architecture с evolvability как одной из центральных архитектурных характеристик.
  • операции методов устойчивого длинногоризонтного рассуждения: углубление, ревизия, исследование альтернатив — как функциональные инварианты, встречающиеся в различных дисциплинах – что-то “первопринципное” для мышления.
  • Единицы модульности: commit/MOVE как минимальная единица закрепления и стоимости отката (мост к evolvability и cognitive debt).
  • компиляция long-CoT (трассы) в итоговый текст – и измеримость пользы (value) текстов в части их “понимания” через показатели вроде epiplexity и через графовые метрики reasoning-траекторий – в том числе зависимость от подготовленности читателя (для замыкания разных циклов совершенствования текстов). Чёткое различение “пользы long-CoT” и пользы итоговых ответов, деление пользы на “прикладную/предметную и архитектурную” (возможно, более дробно – в соответствии с самыми разными viewpoints).
  • переносимость выводов о важности топологии/структуры long-CoT для LLM на world models и далее на людей как агентов, базирующихся на LLM и world models. Педагогические предложения.
  • Модель читателя: структура должна быть не просто “богатой”, а доступной bounded observer, иначе оптимизируется не то. Методология (решение и компиляция в идеальную модель) и методика (компиляция идеальной модели для конкретного читателя) – всего три шага, а не два. Работа с типовыми читателями (viewpoints и viewpoint bundles как “модуляторы” вывода).

Онтология.

  1. Онтологическая путаница-1 в обсуждении long-CoT – tokens trace рассуждения-inference (включая zettelkasten в ходе мышления письмом для прихода к какому-то результату путают с tokens эпистемы, представляющей результат рассуждения-inference (итоговый текст, эссе, содержание книги). Итоговое “убеждающее рассуждение” (от “риторики как убеждающей речи”) обсуждается в части сложной внутренней структуры: явные предпосылки, цепочки причинности, альтернативы, границы применимости, “интерфейсы” между частями объяснения. Эта итоговая эпистема нужна, чтобы другой агент (читатель, студент, другая модель) мог воспроизвести и переиспользовать объяснение по минимальному материалу (феномен “понимания”). А вот рассуждение-след – это состояние временной памяти при процессе-рассуждении-inference. Увы, отглагольное существительное “рассуждение” может означать и процесс, и результат, и промежуточный результат (черновик и лог/архив как внешняя память автора) “в ходе процесса”, так что тут нужно тщательно разводить термины – для этого можно, например, использовать при разговоре о long-CoT методы semantic precision restoration из FPF (использовать не один термин long-CoT, а набор терминов для объектов разных типов). То же нужно делать и для остальных путаниц. Это существенно поднимет общее число терминов в речи, но существенно снизит семантические ошибки.

  2. Онтологическая путаница-2 в том, что “эпизод рассуждения” как “промежуточная память для процесса получения результата”:

  • имеет структуру, её вполне можно рассматривать теми же методами, что и “итоговый текст объяснения” (находить ошибки, пропуски, менять представление),
  • существует для bounded observer – полезность не в minimum loss для презентации чего-то, а в максимуме усвоенной структуры при ограничениях, и это верно для автора в процессе (внешний черновик и журнал/log увеличивает доступную структуру) и для читателя конечного текста (эссе должно быть “структурно понимаемым”, передавать структуру по-максимуму без потерь, с учётом подготовки читателя, которому может недоставать знаний, например, может не знать языка эссе, надо будет передать знание языка)
  • архитектурные свойства (-ilities) применимы к обоим: Observability / controllability / reversibility / modularity / testability / evolvability можно применять и к черновику, и к журналу изменений “во время эпизода”, и к итоговому тексту “после эпизода”, но ещё и к описанию процесса их получения (тоже текст!) – результат эпизода мышления о методе рассуждения.
  1. Онтологическая путаница-3 из-за различий в том, что ошибочно считают “одним и тем же текстом” или “одним и тем же процессом”:
  • процесс, черновик-память, результат отличаются DesignRunTag: процесс имеет описание времени design процесса, черновик как runtime память мышления, но design time результата, результат неявно указывает на время run/прогона процесса чтения (в каком порядке читателю удобно освоить причинность). Тут некоторый граф создания автора (с его процессом), текста (с его последовательностью), читателя (с его процессом понимания). И ещё понимание, что эпистемы пассивны, а все эти run делают системы – авторы описаний метода мышления, авторы в ходе мышления, читатели в ходе понимания (все системы, конечно, “в ролях”).
  • черновик и лог с альтернативами, которые были отброшены, локальные эксперименты, тупики с противоречиями – а результат это обычно сжимает и линеаризует, “хорошее эссе” выглядит как clean reasoning, но reasoning могло быть насыщено самыми разными ошибками и совсем не clean. Можно считать, что речь идёт об “оптимизирующей компиляции” результатов рассуждения в памяти черновиков в итоговый текст – и там уместны многие аналогии (скажем, “суперкомпиляция” как синтез абсолютно нового текста, который по результатам даёт то же понимание, что и несжатый черновик со всеми тупиковыми ходами). Конечно, придётся объяснять, что именно сохраняется (какие инварианты структуры, доказуемости, объяснимости), что именно разрешено менять (линеаризация, перестановка, сжатие, добавление scaffolding для читателя), что запрещено “вшивать” при компиляции (например, подмена статуса доказательности, скрытая смена окна времени или ситуационного контекста, добавление несогласованных допущений и ограничений).
  • один и тот же текст может быть планом размышления (что я делаю дальше), объяснением для читателя (почему это верно и когда применимо, в том числе читатель может быть исполнителем плана мышления), объектом обучения и оценки (передачей понимания, примером, планом упражнений для передачи понимания). И вот это смешение ролей текста-эпистемы является главным источником каши в long-CoT обсуждениях. Разные роли в разных методах/процессах, разные использования текста и разные результаты, разные интересы разных ролей.
  • метрики качества для разных ролей разные: если это спецификация процесса, то важны эффективность поиска, устойчивость к дрейфу, способность переключаться, цена отката (и это может быть или спецификация метода, или заполнение слотов для плана – или методология со стратегированием как выбором метода размышления, или операционный менеджмент работы). Для текста-результата важны объяснительная “схватываемость” (ещё и разная для разного уровня подготовки читателя, ибо “декодер должен быть обучен”), модульность, тестируемость, переносимость, обновляемость (и тут ещё надо учитывать разницу архитектурных характеристик и характеристик качества, ещё и надо рассматривать Парето-фронт, ибо могут быть противоречия между характеристиками и надо будет иметь разные варианты текста, чтобы закрыть не одну точку на Парето-фронте, а несколько). Ещё и может быть путаница между “хороший текст всегда следствие хорошего процесса” (это не так) и “плохой процесс всегда выдаст плохой текст” (тоже может быть не так).
  1. Довольно долго обсуждалось отличие “ответа в один ход” и “многоходового рассуждения” (thinking, reasoning) и ход на CoT и затем long-CoT с упором на длину. Затем оказалось, что длина — это прокси, качество как рассуждения, так и его результата определяется структурой; длинная форма нужна как внешний носитель структуры и контур самопроверки для bounded observer. Ярко это выражено в статье “The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning”, [2601.06002] The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning. “Длинное эссе” полезно не тем, что оно длинное, а тем, что оно хранит недосказанное в короткой форме — проверочные связи, альтернативы, границы применимости. Поэтому ход тут от “сухого описания”, которое начинает рассматриваться как “метод обеспечения понимания: алгоритм для загрузки авторского текста в мозг читателя”, ход на операционализацию структуры (операции, которые работают не столько с текстом, сколько со структурой – молекулярная триада; reasoning‑graphs; topology/length generalization в списке работ ниже. Кроме статьи про molecular structure есть множество работ в поддержку идеи “reasoning traces нужно рассматривать как структурные объекты (графы, доказательства, траектории), и именно структура/топология объясняет обобщение и обучаемость” (без молекулярной метафоры в первой же статье из списка вывод примерно такой: ““Хороший” long‑CoT — это не просто длинный текст, а траектория со стабильным распределением локальных переходов между режимами: последовательное углубление (deep reasoning), циклы ревизии (self‑reflection), ветвления/альтернативы (self‑exploration)”, причём это можно рассматривать как “базовые вариации длинногоризонтного мышления – углубление (строить связную цепочку следствий), самоконтроль/ревизия (возвраты, проверки, исправления), исследование (ветвление, альтернативы, “что если…””). И эти операции появляются не только в текстовых CoT, но и в планировании, поиске, доказательствах, проектировании, научном объяснении — просто в другом “носителе”."):
  • Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties (arXiv:2506.05744, 2025) — строит reasoning graphs и анализирует их свойства/метрики. Это почти та же мысль, но выраженная без метафор: качество reasoning связано с графовыми свойствами траекторий (цикличность, связность, пути и т.п.).
  • Mapping the Minds of LLMs: A Graph‑Based Analysis of Reasoning LLMs (Findings EMNLP 2025; arXiv:2505.13890) — тоже “графовый взгляд”: представление рассуждений как графов и анализ связи структурных характеристик с поведением/качеством.
  • What Makes a Good Reasoning Chain? Uncovering Structural Patterns in Long Chain‑of‑Thought Reasoning (arXiv:2505.22148, 2025) — максимально “в тему”: именно структурные паттерны хороших длинных рассуждений.
  • Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces (arXiv:2602.14404; 16 февраля 2026) — это уже после вашей январской статьи и очень релевантно. Они формализуют датасет в Lean и сравнивают модели, обученные на reasoning traces (proofs), с direct prediction; фокус — как меняется польза traces при росте “топологической сложности” и длины доказательств.
  • LLMs Can Easily Learn to Reason from Demonstrations — Structure, not content, is what matters! (arXiv:2502.07374, 2025) — ключевой результат буквально в названии: модель может учиться long‑CoT из относительно небольшого числа примеров, но ломается, когда рушится порядок/логическая структура шагов, тогда как многие “контентные” искажения менее критичны. Это почти то же утверждение, что у 2601.06002 про “isomers”: не любая длинная цепочка обучает; обучает та, у которой правильная структурная организация шагов и переходов.
  • пригодность траекторий для студента (2601.14249)
  • structure‑aware compression (2505.14582; 2505.16838; 2602.10048)
  • в world models — как необходимость уметь управлять многошаговыми роллаутами и декомпозицией (2601.03905; 2601.08955; 2601.07577).
  1. Структуры могут быть абсолютно разные. Так, может быть крайне компактная структура решения, но крайне сложная для обучения (belief revision problem в онтологии: “добавление одного маленького факта заставляет перестроить всю огромную онтологию”, а также belief about beliefs – усилия по переубеждению могут быть запредельны, хотя само решение очень простое, например, “вера в плоскую землю” или “палец давит на стол с той же силой, что стол давит на палец” – контринтуитивность может требовать дополнительных усилий). Поэтому надо различать структуры решений (и процессы их получения), структуры передачи понимания (и процессы их получения). Нельзя считать, что есть универсальный текст, который оптимально решает все задачи: как передаёт способ решения, так и добивается понимания. Можем условно считать, что есть два такта: методологической работы (провести рассуждение и откомпилировать черновики в компактное итоговое эссе) и методической работы (компактное итоговое эссе перевести в вид, удобный для передачи понимания читателю). По большому счёту, learning sciences работают с методическим шагом (добиться понимания solution реальным читателем), а вот исследователи LLM и world models чаще всего с методологическим (найти solution и “абстрактно объяснить” solution “идеальному читателю”). Грубо говоря, первые выдают “справочник по решению проблемы”, вторые – “учебник по решению проблемы” (а по справочнику понимание обычно не передаётся, понимать проще по учебнику). Это ещё и ещё раз говорит, что тексты нужны разные, соответствующие разным viewpoints и несущие разные структуры, которые надо сохранять в тексте при его отображении. Это сильно пересекается с неявностью целей всех рассуждений про long-CoT:
  • улучшить качество решения здесь‑и‑сейчас (instrumental reasoning),
  • сделать процесс управляемым, аудируемым, воспроизводимым, изменяемым (архитектурные характеристики, причём для процесса, а не результата)
  • обучить другого агента (передать понимание и навыки, неявное включение пост-компилирования/методической работы, а не только работы поиска решения и оформления вывода решения).
  1. Понимание – это владение объяснительными связями (почему и как одно следует из другого), а не только знание отдельных фактов “что верно”. Базы данных, сборники твитов и т.д. не обеспечивают понимания – различие между knowledge/true belief и understanding/explanatory grasp. Это, например, обсуждается в Understanding (Stanford Encyclopedia of Philosophy). Понимание источником имеет эпистемологию, а выходом не онтологию (факты о том, что есть в мире), а методологию – “как делать”, исходя из понимания. Понимание даёт возможность предложить метод изменения мира в желаемом направлении. Понимание — это не отказ от репрезентаций, а способность строить, запускать и пересобирать модели мира через репрезентации; “длинная форма” (эссе, CoT, траектория, rollout) полезна ровно настолько, насколько она поддерживает углубление + самопроверку + исследование, не превышая ресурсные ограничения системы.

  2. Понимание ещё связано с recall в ситуации, когда надо использовать знание (когда человек умеет плавать, но в бассейне, а просто попав в воду даже не вспоминает об этом своём умении), поэтому “понимание” должно быть доведено до агентности, инициативы в задействовании понятого. В LLM аналогично: с какого-то момента LLM “знает” какой-то приём рассуждения и может использовать “по промпту”, но с какого-то момента – может использовать и без дополнительного промпта (что много сложнее).

  3. Текст эссе как итога мышления – это не окончательно оптимальная форма знания, только с письмом как пассивной эпистемой нельзя работать, более продвинутая форма – модели (объяснения, причины, всё вот это – про изменяемые состояния чего-то, что надо понимать, про “законы мира” и допустимость. В принципе, можно и эссе рассматривать как модель, но с этой моделью как “декларативным алгоритмом” работает мозг/вычислитель читателя, превращающий “пассивную эпистему” в исполняемую программу, меняющую состояния в ходе исполнения. Вот эта двойственность “текст как пассивная эпистема” и “текст как декларативный алгоритм, по которому затем работает мозг читателя” (возможно, читатель даже в ходе выполнения алгоритма-из-текста делает действия в окружающем физическом мире, ибо он embodied) – важное замечание. Понимание может быть “написанного в эпистеме как пассивном знании”, но может быть “изменений, которые можно делать в мире с использованием этой эпистемы как алгоритма”. Алан Кей был один из главных, кто в своих работах предлагал вести образование от разрозненного понимания коротких фактов (уровень “пословиц”) к пониманию длинных текстов с описанием причинно-следственных связей (эссе) и далее к моделям, допускающим ответы на контрфактические вопросы (а что, если бы…) – и тут важно, что модели подразумевают возможность совместной интерактивной работы человека-агента и компьютера с tooling.

  4. Проблема репрезентаций и нотаций. Представление знания многолико в части способов репрезентаций разных акцентов в разных нотациях:

  • онтология (объекты, knowledge graphs),
  • методология (акцент на методы в каком-то контексте для получения какого-то результата, языки александрианских паттернов против языков механизмов с эффектами против классических алгоритмических языков, проблемы “пошаговых алгоритмов” и “факторизации методов” ввиду неразложимости на “шаги”, параллелизации и синхронизации),
  • объяснения (причинно-следственные графы SCM в виде текстов, а при повышении точности и сжатии представления – моделей для задания контрфактических вопросов, линия рассуждений об эссе и моделях от Alan Kay и рассуждений David Deutsch об объяснениях, рассуждений Marletto о представлении научного знания).
  • Если учесть, что текст в какой-то мере это “алгоритм загрузки в мозг читателя” и это тоже задаёт структуру, то можно вспомнить формат александрианского языка паттернов – это ход на добавление достаточного числа причинно‑следственной информации, по которой можно реконструировать и переиспользовать объяснение. Паттерн — это формат отдельных операций, готовых к откатке как коммитов/MOVEs алгоритма рассуждений и алгоритма загрузки в нейросеть агента-читателя + объяснение причин/границ, чтобы читатель мог делать «безопасные/откатываемые изменения» на шаги, описываемые паттерном. Выдача “просто алгоритма” (Solution) без традиционных для языка паттернов разделов Problem Frame, Problem, Anti-patterns, Consequences и т.д. – опускает эти связи, хотя и короче. Это хорошо связано с тем, как строить skills для LLM (процедурное знание “без объяснений”), это связано с тем, что код программ явно недостаточен для объяснения и нужны какие-то комментарии (и становится потихоньку понятным, какие именно комментарии, это традиционная тема обсуждения в pattern languages).
  1. След рассуждения в форме токенов — это реальный причинный механизм решения или пост-хок рационализация или даже результат фейка? Что именно мы мониторим: “правильную структуру”, “правдоподобный рассказ” или что иное? Эксперименты показывают, что LLM могут “думать” (в латентном пространстве) одно, а дальше намеренно выдавать отнюдь не всё в токены thinking. В современных обсуждениях LLM это ключевой узел: CoT может быть полезным инструментом (улучшает поиск/самопроверку), но не гарантированно объясняет, почему модель пришла к ответу. По большому счёту – это вопрос про то, как связано рассуждение в распределённых представлениях и его поддержка в локальных представлениях. Тут всё про sequential texts (токены), но есть же рассуждения и параллельные, а ещё есть латентные рассуждения, для которых это всё неверно – но и там можно говорить иногда о токенах вроде DroidSpeak или COCONUT архитектур. Опять же: как это педагогически? Учить людей “осознанно по шагам”, а затем считать, что “автоматизируется как-нибудь в латентную интуицию шагов мышления”? Тут ещё одно соображение, что “длинные тексты” признак не только богатой структуры, но и overthinking (например, статья “Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens”, [2602.13517] Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens, статьи “Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning”, [2505.14582] Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning). Это иногда связывают с “безопасностью” (может ли LLM симулировать поток токенов в long-CoT, думая на совершенно другую при этом тему и “сознательно” маскируя при этом реальные шаги мышления в “черновиковом” следе long-CoT, “Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting”, [2305.04388] Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting). Так что этот процесс размышления перед ответом надо тоже как-то оценивать (и тут тоже есть уже работы, “Evaluating Step-by-step Reasoning Traces: A Survey”, [2502.12289] Evaluating Step-by-step Reasoning Traces: A Survey). Грубо говоря, иногда CoT таки инструментальный интерфейс, полезный для управления и обучения, но иногда – “нарратив”, которым бесполезно управлять и который бесполезно использовать. Само понятие long-CoT оказывается проблематичным. В обучении людей это часто проявляется: таланты интуитивно отлично решают задачу, но затрудняются словами объяснить, как это они делают (и это отличается от задачи отображения мышления через какие-то точки в латентном пространстве на квантованное пространство немногих известных токенов, “ограниченный словарь” – иногда выражаемой “изречённое дао – ненастоящее дао”. Нет, речь идёт не о “кривом отображении”, а независимых процессах мышления и создания “нарратива”).

Динамика

  1. Ещё одна трудность в том, что итог может рассматриваться и как результат работы (операционный менеджмент, планирование ресурсов) и как результат выполнения метода (содержательно там минимально методы “разработки” для достижения пользовательских характеристик результата, quality и “архитектуры” для достижения результата, но ещё и многие другие – проблематизации и постановки задачи, проверки-verification и приёмки-validation и многое другое, что традиционно обсуждается в software engineering, который в рамках software process тоже обсуждает коллективное производство эпистемы-кода, тоже как результат “рассуждения”, часто коллективного). И топология/структура обсуждается и для процесса, и для работы (процесс и работа – два view на “изменения в мире”, процесс – это design-view/метод/рецепт, а работа – это run-time view, операционного менеджмента).

  2. Объяснение почти неизбежно требует длинной формы: эссе как развёрнутый разбор, траектория рассуждения. Не потому, что «длина магична», а потому что хорошее объяснение (объяснительное знание-для-понимания, а не набор фактов или предсказаний) обычно включает явные предпосылки, цепочку выводов, проверку на противоречия, альтернативы и границы применимости, связь с другими моделями/контекстами. Но всё-таки в long-CoT длина – это грубое прокси для структурной сложности, ибо в конечном итоге важна топология/структура, а не длина. Более того, и топология может быть сокращена (“Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning”, [2505.14582] Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning).

  3. Ход образования – выход на ментальные модели, которые дают понимание, а не просто хранят отдельные факты. Но при обучении важно не просто письмо само по себе, а тип когнитивной работы при письме (письменное объяснение само по себе не всегда даёт выигрыш, ибо важны условия: например, self-explaining может быть эффективнее, чем “объяснять воображаемому ученику”, “Learning by writing explanations: Is explaining to a fictitious student more effective than self-explaining” – Learning by writing explanations: Is explaining to a fictitious student more effective than self-explaining? - ScienceDirect).

  4. Если выходить за рамки “подготовки одного текста” на уровень “подготовка многих текстов” (передача большого понимания) и смотреть на методику, то надо смотреть в сторону технологий “мышления письмом”, плавно переходящим в “мышление моделированием” в Мышление письмом/моделированием: ailev — ЖЖ

  5. Важность не только рефлексии как механизма стабилизации длинного рассуждения (поздние шаги возвращаются к ранним и проверяют их) как в “молекулярной” статье, но и более богатых различений в управлении, влияющем на достижимую сложность структуры, грубо аппроксимируемую “длиной”. И ещё тут влияет общность действий в среде и мыслительных операций, “ходов”.

  6. Связь всех этих идей с первыми принципами: объяснения должны включать ограничения, чтобы предохранить от решения нерешаемых проблем ([2512.01661] Learning the Boundary of Solvability: Aligning LLMs to Detect Unsolvable Problems). distinguishing objective unsolvability (inherent contradictions) from subjective capability limitations (tasks exceeding model competence). Current LLMs often conflate these dimensions, leading to hallucinations in which they return confident answers to inherently unsolvable queries. Этот тезис надо довести до обучения людей: “не надо изобретать вечный двигатель”.

  7. Связь с ниткой идей “интеллект – это искусство сжатия” (жми, господь!, Жми, господь!: ailev — ЖЖ в 2018 году ещё не имеет этого вывода, но позже появляется целое направление исследований “сжатие” – и новые формы как дистилляция, прунинг, моделирование, имитация и т.д.).

  8. Важны операции с разными упомянутыми текстами и описаниями трасс мышления как с эпистемами: это или проекции (безэффектные) или механизмы (с эффектами), и тут можно отдельно смотреть, как они специализируются именно для рассуждений и long-CoT. Все эти последовательности операций хорошо выражаются в форме графа трансдукций в эйлерианском представлении, что позволяет как-то инструментализовать поток мышления как “мышления письмом” (с использованием внешней памяти, long-CoT). В FPF есть типовой набор канонических глаголов слот-операций “над содержимым/слотами” (fill, clear, retarget, substitute, resolve, mutate(or modify), pass), это даёт возможность перевести обсуждение рассуждений в описание графа трансдукций с GateCrossings и соответствующими замерами, и ещё это всё можно будет компактно учить в знакомых общих терминах, а не “специальных для long-CoT” (уровне мета-мета-модели, первых принципов, а не вторых принципов из ML или learning sciences):

  • “ревизия” можно расписывать как resolve inconsistency, retarget assumption, clear branch, substitute lemma
  • “исследование альтернатив” как fill alternative slots, pass кандидаты в selector, resolve контрпримером
  • “углубление” как fill consequence chain, resolve missing premise.

Продолжение (пункты 19-35) в Position paper про "длинногоризонтное мышление" (long-CoT) как мышление письмом/моделированием (2/2): ailev — ЖЖ

Rhoden1