Position paper про "длинногоризонтное мышление" (long-CoT) как мышление письмом/моделированием (2/2)

ailev · 26.Февраль.2026 20:36:50

Продолжение, начало в Position paper про "длинногоризонтное мышление" (long-CoT) как мышление письмом/моделированием (1/2): ailev — ЖЖ

Архитектура (-ilities + fitness functions)

Статьи про long-CoT используют неуловимое понятие “сохраняемой структуры”, неуловимое понятие “сохраняемой топологии”, но можно думать о ходах на количественные оценки “ухватывания структуры” из “текст “Epiplexity: Quantifying the Structural Value of Data for Bounded Observers”, [2601.03220] From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence. Вот из гонзо-обзоров по-русски (Telegram: View @gonzo_ML): “даёт строгую метрику для отбора данных: для предобучения важен не минимум финального лосса (энтропии), а максимум усваиваемой структуры (эпиплексии)”. Авторы ввели понятие эпиплексии (epiplexity) — новую метрику из теории информации, которая оценивает объём структурной информации, доступной вычислительно ограниченному наблюдателю. В отличие от энтропии Шеннона или колмогоровской сложности, подразумевающих бесконечные ресурсы, эпиплексия явно учитывает конечность модели (программы) и процесса обучения (вычислений)”. Ха, эпиплексия - это максимум структуры (усваиваемой), то есть это по типу “структура”, и одновременно это оценка объема (структурной) информации, то есть по типу “объём информации”. Или структура измерима в битах, что уже интересно"). Это ход на “архитектуру рассуждений” (ибо архитектура – это наука о структуре и топологии. Например, функциональные диаграммы и принципиальные схемы в графах трансдукций-- это топологии, схемы потоков). Конечно, сразу появляется проблема разнообразия архитектурных описаний: в одних и тех же long-CoT (с учётом онтологического разнообразия, что под ними имеют в виду) ищут разные структуры, для разных целей.
Рассматривая длину текста/рассуждения, мы выходим на архитектурный вопрос о модульности – и находим там PSC (parallel sequential contradiction), Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models | OpenReview. Это существенно влияет на вопрос об “оптимальной длине” длинных рассуждений с одной стороны, вопрос о “структуре важнее длины”, выстраивании каких-то фактов в длинные объяснения (возможно, комбинирование частей каких-то объяснений, вроде лемм-теорем). Вопрос к алгоритмике: есть ведь теоретические ограничения на распараллеливание (не все алгоритмы эффективно распараллеливаются). Параллельная природа декодирования конфликтует с причинным порядком, который нужен для строгого рассуждения; из‑за этого ограничиваются глубина, саморефлексия и исследование альтернатив. И архитектура вывода: если модель не генерирует последовательный текстовый след (например, у неё латентные планы, внутренние rollouts, или параллельное декодирование), “топология токенов” перестаёт быть естественной наблюдаемой величиной — и прямой перенос ломается. Вопрос к образованию: как оно с этим работает – чему и как учить в мышлении, чтобы преодолевать ограничения от PSC? Достижимая топология/структура зависит от вычислительной архитектуры генерации. PSC — частный случай для параллельного декодирования.
Понятие коммита или MOVE (в терминах TameFlow) может помочь в задании модульности long-CoT. Оно может означать некоторый шаг рассуждения, в котором мы проходим какую-то развилку в процессе. Это в том числе и единица отката, означающая, что мы готовы вернуться и перепройти развилку по-другому. Архитектурное рассмотрение следит за архитектурными характеристиками. Похожесть коммита и MOVE из TameFlow, в том, что MOVE рассматривается как граница неделимого куска работы, достаточного для передачи результата следующим исполнителям. В LLM‑QA: финальный ответ как коммит/MOVE; LLM‑агентам (ReAct/ToT): многократные коммиты/MOVEs (выбор ветки, вызов инструмента); world‑model агентам: действие в среде как “жёсткий” коммит/MOVE; людям: сдача работы/публикация/отправка письма. Commit (ибо в разных работах action – разное: у агента: реальное действие в среде; у LLM в задаче QA: коммит финального ответа; у LLM‑агента (ReAct/ToT): коммиты происходят многократно (выбор следующей ветки/инструмента/шага плана); у человека: коммит может быть “я выбираю стратегию”, “я заканчиваю решение”, “я сдаю ответ”). Все эти “до-после” в связи с “рефлексией” по факту – момент, после которого исправления становятся существенно дороже (внешне или вычислительно). И, конечно, все эти “шаги” – они разные по типу (шаг поиска (в пространстве гипотез), шаг доказательства, шаг редактуры/компиляции, шаг обучения читателя, и т.д.).
Коммит/MOVE в трансдукционном графе прямо связан с GateCrossing (ограничивает то, что делается в одном узле), но ещё трансдукционный граф – это граф потока, “принципиальная схема”, что традиционно обсуждается как “функциональная архитектура”. Это усиливает тезис о том, что надо обсуждать прежде всего архитектурные вопросы, используя традиционные средства обсуждения архитектуры: модульность, потоки, различение общих для самых разных архитектур архитектурных характеристик и пользовательских/прикладных и т.д.
Можно думать о какой-то таблице, где есть до коммита, после коммита, во время коммита и ещё выход на уровень времени выше, “между эпизодами” (понятие эпизода тоже надо уточнять). Тогда “стабилизационная роль” self-reflection оказывается архитектурной: недопущение роста cognitive debt, уменьшения evolvability, стоимости возможного refactoring. Вообще, если протянуть рассуждение про структуры/топологию рассуждения и применить evolvable architecture, а коммит рассматривать как “прохождение развилки, после которой трудней откатиться”, то надо сразу формулировать набор архитектурных характеристик и рассуждения, и объяснения, а ещё заводить архитектурную работу как meta-cognition, и она нужна для управления архитектурными характеристиками, которые измеряются непрерывно на основе каких-то fitness functions. Так что многие работы тут можно переформулировать как работы по архитектуре рассуждений и объяснений, отслеживание evolvability знаний. И тут или в каждой колонке мониторинга и контроля иметь Q-характеристики, и A-характеристики, или делать отдельные колонки для архитектурных характеристик:

Фаза	Мониторинг: качество решения	Контроль: качество решения	Мониторинг: архитектура (пример: evolvability/изменяемость)	Контроль: архитектура (пример: изменяемость)
До закрепления (forethought)	требования задачи, риск ошибок, калибровка уверенности, критерии успеха	выбор стратегии/репрезентации/инструментов; бюджет (время/токены/роллауты); политика “think more/stop”	оценка обратимости ключевых решений (что будет дорого переделывать), оценка “ширины неизвестного” (насколько неопределён класс будущих запросов)	отложить необратимые решения до “last responsible moment”; выбрать более обратимую декомпозицию; заложить трассируемость (assumption ledger / ссылки на источники/под‑цели)
Во время (online loop)	прогресс, несостыковки, рост неопределённости, дрейф от постановки	смена тактики; backtrack/branch; запрос внешней проверки (инструмент/симуляция/поиск); увеличение глубины	рост “долга рассуждения”: сколько неявных допущений накопили, насколько переплелись зависимости между частями (entanglement), где уже трудно локально исправлять	refactor траектории: модульность (разбить на подзадачи), сделать допущения явными, добавить промежуточные проверки; управлять частотой рефлексии/ветвления
Сразу после (post‑hoc внутри попытки)	верификация результата, поиск контрпримеров, локализация источника ошибки	правка ответа/плана; дополнительная проверка; повторное извлечение знаний/свидетельств	оценка: “если завтра придёт новый факт/контрпример — насколько легко адаптироваться?”, выявление узких мест (где переделка самая дорогая)	добавить/укрепить “guardrails” (fitness functions): явные инварианты, тесты на согласованность, проверки источников; снизить закрепление через сохранение альтернатив/черновиков
Между эпизодами (learning/governance)	калибровка метакогнитивных сигналов: где мониторинг ошибался	обновление стратегий решения и выбора инструментов	мониторинг архитектурного дрейфа процесса (появляются ли повторяющиеся “хрупкие” паттерны), накопление “долга” в памяти/правилах	“оплата долга”: пересборка чек‑листов/политик; обновление памяти/правил; (в ML — data curation/finetune), установление постоянных fitness functions

И ещё есть мониторинг с контролем, где каждый коммит/MOVE рассматривается как “дающий позитивный прирост в прикладной структуре рассуждения” и “источник роста cognitive debt, прежде всего характеристик evolvability”. Вообще, понятие “недодуманности” в части архитектуры как cognitive debt (аналог технического/архитектурного долга, возникающего от приоритетного подъёма пользовательских характеристик при одновременном ухудшении архитектурных характеристик). Вопрос: этот архитектурный долг снимаем в ходе эпизода размышлений, или уже в ходе оформления результата размышлений (компиляции “заметок в ходе трассы long-CoT” в итоговый текст для конкретного читателя).
Универсальные ‑ilities для reasoning, которые почти всегда встречаются, когда разные сообщества говорят про “рефлексию/мониторинг/контроль/планирование/структуру траектории”.

Observability (наблюдаемость процесса) – насколько легко обнаружить и локализовать сбой/дрейф в процессе рассуждения, имея доступ к наблюдениям (логи, следы, ответы, поведение).

LLM: наблюдаемость часто зависит от того, есть ли доступ к промежуточным следам (CoT, tool traces, self‑eval) и насколько они согласованы; статьи про “топологию long‑CoT” фактически строят наблюдаемость через статистику переходов и “структуры” траекторий. (arXiv)
World‑model агент: наблюдаемость включает видимость “когда агент симулировал”, “что он вынес из роллаута”, “как это повлияло на действие”. В работе про world models показывают, что агенты часто почти не вызывают симуляцию и неправильно используют роллауты — это проблема observability+controllability на связке “симуляция→решение”. (arXiv)
Люди: в learning sciences это зона метакогнитивного monitoring (самонаблюдение прогресса/понимания) в SRL‑моделях. (Frontiers)
Fitness function (архитектурная): “локализуемость ошибки”, фиксируем набор задач с диагностическими “инъекциями” (вставить противоречивое условие, скрытую ловушку, смену требования) и измеряем: можно ли по наблюдаемым следам верно указать, где и почему произошёл сбой (не только что ответ неверен). Это тестирует наблюдаемость, а не просто accuracy.

Controllability (управляемость/регулируемость) – способность изменять ход рассуждения в ответ на сигналы мониторинга: переключать стратегию, откатываться, ветвиться, останавливать поиск.

LLM: Tree‑of‑Thoughts — явный пример архитектуры, которая добавляет controllability через branching, lookahead и backtracking (по сути, управление поиском по пространству мыслей). (arXiv)
World‑model агент: controllability включает политику “когда симулировать/какой горизонт/как интегрировать”. В 2601.03905 показывают, что именно это — узкое место. (arXiv)
Люди: в SRL это control‑фаза (смена стратегии, управление вниманием/временем/усилием) и она явно отделена от мониторинга у Pintrich‑подобных моделей. (Frontiers)
Fitness function: “реактивность на сигналы”, задаём контролируемые ситуации, где оптимальная стратегия должна смениться (например, вводится новое ограничение, меняется стоимость ошибки, появляется противоречие), и проверяем, что система на самом деле переключается в пределах заданного бюджета (токены/время/шаги). Это мониторит controllability, а не “среднюю точность”.

Reversibility / Low‑commitment operation (обратимость, управление закреплением) – насколько дёшево “переиграть” ранние решения, не переписывая всё целиком.

LLM: long‑CoT часто “цементирует” ранние допущения. Статья 2601.06002 выделяет self‑reflection как “fold back” — поздние шаги возвращаются к ранним, чтобы стабилизировать траекторию; в архитектурном языке это механизм повышения обратимости внутри длинной траектории. (arXiv)
World‑model агент: обратимость тесно связана с тем, можно ли “откатить” действие: поэтому важна симуляция до реального шага и поздний коммит. Если агент почти не симулирует, он повышает commitment слишком рано. (arXiv)
Люди: обратимость поддерживается черновиками, внешними записями, возможностью вернуться к предпосылкам; в SRL‑терминах это часть контроля и реакции/рефлексии. (Frontiers)
Fitness function: “стоимость пересмотра”, измеряем, сколько ресурсов нужно, чтобы корректно адаптироваться к небольшой смене условий (tokens/time/steps, у людей — минуты/итерации) при фиксированной исходной работе. Тестируем не качество исходного ответа, а градиент стоимости изменения (аналог cost‑of‑change, но управляемый).

Modularity / Decoupling (модульность рассуждения) – локальные изменения должны оставаться локальными; рассуждение разбивается на компоненты/подцели с явными интерфейсами.

LLM: ToT и похожие методы часто вводят явные “units of thought” и оценки на уровне узлов дерева. (arXiv)
World‑model агент: модульность — разделение “модель мира / планировщик / политика действий / оценщик риска” с явными границами и протоколами (иначе получаются entangled contexts и плохая управляемость). Проблема “как интегрировать роллауты в reasoning” — как раз про недостаточную модульность интерфейса между world model и контроллером. (arXiv)
Люди: модульность проявляется как декомпозиция задачи, структура эссе (тезис→аргументы→контраргументы→синтез), а также как умение переключаться между репрезентациями без “путаницы контекстов” (это хорошо описывается SRL как регулирование когниции/контекста). (Frontiers)
Fitness function: “локальность эффекта”, меняем один модульный компонент (одну предпосылку/подзадачу/источник) и проверяем, что изменения в траектории и выходе ограничены ожидаемой областью, без каскадной деградации. Это мониторит modularity/decoupling.
Testability / Verifiability (тестируемость и проверяемость) – насколько легко проверять, что процесс и его компоненты соблюдают инварианты (логические, фактические, процедурные).
LLM: Self‑Refine — архитектура “черновик → критика → правка”, улучшающая выход без обучения; это увеличивает testability за счёт явного внутреннего тестового шага (feedback). (arXiv)
World‑model агент: testability часто реализуется через симуляционные “контрольные прогоны”, consistency checks между predicted rollouts и реальными последствиями, и т.п. Проблема из 2601.03905: даже при наличии world model агенты не превращают её в работающий тестовый контур. (arXiv)
Люди: тестируемость — это наличие критериев, рубрик, проверок (контрпримеры, независимая проверка, peer review). В SRL‑моделях “standards/criteria” — условие осмысленного мониторинга. (Frontiers)
Fitness function: “инварианты и метаморфические тесты”, задаём набор инвариантов (например, логическая согласованность; соблюдение ограничений задачи; отсутствие противоречий с источником) и прогоняем на регрессионном наборе; используем метаморфические преобразования (переформулировка, перестановка нерелевантных деталей) и проверяем, что поведение сохраняется. Это архитектурный мониторинг testability/verifiability.

Evolvability (эволюционируемость) – способность процесса рассуждения адаптироваться к изменениям требований/контекста с контролируемыми затратами и без деградации основных свойств. Это прямой перенос идей evolutionary architecture: evolvability как -ility и fitness functions как способ её защищать. (Neal Ford)

LLM: evolvability часто упирается в то, как легко менять “архитектуру мышления” без переобучения — через промпт‑программы, tool policies, memory policies, структуры типа ToT/Reflexion. (arXiv)
World‑model агент: evolvability включает адаптацию к новым задачам/целям при тех же моделях среды; ключ — “насколько быстро перестраивается стратегия использования симулятора”. (arXiv)
Люди: evolvability — это перенос и перестройка знания (transfer, conceptual change), способность переучиваться и обновлять ментальные модели; SRL подчёркивает рекурсивность циклов и регулирование не только когниции, но и мотивации/контекста. (Frontiers)
Fitness function: “дрейф‑под‑изменениями”, регулярный набор “change scenarios”: новые ограничения, новые данные, смена формата вопроса; мониторим, что ключевые архитектурные свойства (наблюдаемость, управляемость, стоимость пересмотра) остаются в пределах, даже если метрика качества слегка гуляет. Это ближе к настоящему architectural fitness monitoring, чем просто accuracy.
проблема в противоречии с тезисом David Deutsch о “трудноизменяемости” хорошего объяснения. Хорошее объяснение должно быть evolvable, то есть сохранить возможность изменений, но по David Deutsch (в его лексике) это выглядит как “плохое объяснение”. Надо решить это противоречие. Hard‑to‑vary можно читать как “жёсткие связи между частями объяснения + отсутствие лишних степеней свободы”, evolvability — как “низкая стоимость изменения при появлении новых фактов/требований”, а конфликтовать эти идеи перестают, если ввести модульность и явные интерфейсы объяснения: внутри модуля объяснение hard‑to‑vary, а между модулями — управляемая изменяемость.

Все эти характеристики для их обсуждения предлагают разные viewpoints, которые формируют “архитектурную библиотеку viewpoints” (viewpoints bundle), как “модуляторы вывода”, предлагающие стандартные способы описания текстов и рассуждений (через трассы прихода к решению, через трассы компилирования трассы решения в итоговый документ).

Если вы смотрите на литературу по LLM, агентам и людям, то характеризация для “рефлексии, мониторинга, контроля” часто просто разные имена для архитектурных -ilities:

Monitoring (SRL) / self‑evaluation / inconsistency detection → Observability (Frontiers)
Control (SRL) / strategy switching / backtracking / simulate‑or‑act policy → Controllability (Frontiers)
Self‑reflection as folding back (2601.06002) → Reversibility + runtime correction loop (arXiv)
Tree/branching/search → расширенная controllability (управление поиском) (arXiv)
Iterative refine / critique‑revise → Testability + controllability на уровне продукта (arXiv)
Episodic reflections stored for later → Evolvability (межэпизодная адаптация) (arXiv)

Именно в этом смысле “табличка мониторинг и контроль по времени и по архитектурным характеристикам” полезна: она согласуется с SRL‑моделями, где прямо выделены фазы (forethought/monitoring/control/reaction‑reflection) и области регулирования (когниция, мотивация/аффект, поведение, контекст). (Frontiers)

И, конечно, разводим характеристики качества самого рассуждения (“пользовательские”, прикладные – что там можно использовать) и архитектурные характеристики рассуждения (связанные с его структурой/топологией), а также архитектурные характеристики (то, что замеряем) и fitness functions (как именно замеряем, какой метод замера).

Перенос между предметными областями и следствия для педагогики

Работы по long-CoT в LLM, по рассуждениям агентов (живых и AI) с использованием world models, по рассуждениям людей, по обучению рассуждениям людей (learning sciences), по обучению презентации результатов рассуждений в форме длинных текстов – они все ценны тем, что ввиду похожести обсуждаемых тем (при чётком удержании различий) довольно много результатов одних исследований применимо на практике для других тематик. Скажем, работы по long-CoT в LLM можно прямо использовать для идей в педагогике.
Связь с world models: понятие топологии и структуры меняются: CoT переходит в “граф действий/подзадач + обращения к симулятору или миру”, self-exploration – это branching и rollouts, self-reflection – это выбор между “пересчитать”, “перепланировать”, “проверить гипотезу”:

Beyond Entangled Planning: Task‑Decoupled Planning…* буквально говорит языком “структуры”: проблема — entangled contexts (монолитная история, где ошибки расползаются), решение — декомпозиция в DAG подзадач и локальные контексты. [2601.07577] Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents. Это очень близкая по сути “топологическая” идея, только в агентном планировании.
а Imagine‑then‑Plan делает акцент на многошаговых imagined trajectories и адаптивном горизонте lookahead — это по смыслу управляемая self‑exploration, где структура траекторий (какой горизонт, где ветвиться) является ключом к качеству. [2601.08955] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models
active inference критикуется как “нефальсифицируемость” для описания работы с world models, но это же просто математический аппарат, он и не может быть фальсифицируем (он умозрителен), другое дело, что его удобно использовать для описаний. Но есть и конкурирующие с active inference математические представления, какие они?
можно обсуждать, как мышление людей похоже на мышление LLM и мышление с world models в агентах – и делать педагогические выводы, учить хорошим рассуждениям по поводу эпистем (чистое мышление) и по поводу действий (методологическое рассуждение, стратегирование как поиск метода для получения результатов, затем планирование работ в мире, выполнение работ по плану, получение обратной связи и новая проблематизация по поводу того, какую проблему с миром решаем), но можно учить просто хорошим представлениям текста. Всё это как-то связано с сохранением хорошей структуры long-CoT.

Если принять логику Deutsch/Kay + результат 2601.06002, то образовательный вывод звучит так:

Учить не “писать длинно”, а “писать структурно” (Универсальным остаётся то, что длинногоризонтное поведение требует устойчивого сочетания углубления, проверки, исследования): 1. Deep reasoning: локальные кластеры вывода (1–2 ключевых хода доведены до конца, а не 10 намёков). 2. Self-reflection: явные возвраты и проверки (“какое допущение я сделал 2 абзаца назад?”, “что если оно неверно?”). 3. Self-exploration: контролируемые ветвления (“альтернатива A/B, почему выбираю A”).
Оценивать эссе по “связям”, а не по маркерам. Статья прямо показывает: ключевые слова могут ускорять обучение, но не являются сутью; важна сохранность “траектории поведения”.
Не ожидать, что конспект‑саммари заменит разбор. Сжатие может сохранить результат, но разрушить структуру, которая нужна для переноса/обучаемости.
Делать ставку на построение ментальных моделей и связей. Это совпадает с тем, что learning science считает ключевым: формирование организованных структур знания и моделей (mental models), а не накопление разрозненных фрагментов. Проблема не в репрезентациях как таковых, а в том, что образование часто поощряет узнавание репрезентаций вместо построения смысла, то есть моделирования. Когнитивная литература задаёт использование ментальных моделей через “лестницу причинности” (prediction (наблюдательные) vs control (интервенции) vs explanation (контрфактуалы)) в их использовании – Prediction, Explanation, and Control: The Use of Mental Models in Dynamic Environments - PMC. Generative learning — это активное “делание смысла” через ментальную реорганизацию и интеграцию с предшествующим знанием, что повышает перенос на новые ситуации, Eight Ways to Promote Generative Learning | Educational Psychology Review | Springer Nature Link. В обзоре Fiorella (2023, Making Sense of Generative Learning | Educational Psychology Review | Springer Nature Link) предлагается рамка “generative sense‑making” с тремя режимами: explaining, visualizing, enacting, и подчёркиваются границы применимости и важность гайдинга/тайминга активностей. Это очень похоже на “топологию”: не любой “длинный текст” даёт понимание; важен тип и порядок когнитивных операций (объяснить/смоделировать/сделать/проверить/исправить).

Наличие хорошего объяснения (context для мышления = структура, в которой факты начинают что-то значить) ценнее “просто IQ” – по Alan Kay, “Context is worth 80 IQ points”! Сюда же – Фейнман про “когда я беру в руки карандаш и бумагу, я становлюсь умнее”. И тут ход на обучение сначала чтению и пониманию объяснений (и что из них плохие, а что из них хорошие), а затем и обязательно письму:

В статье Computers, Networks and Education (1991) Alan Kay прямо пишет про медиа-сдвиг от “глубины” к “валюте новостей”, а затем к визуальной немедленности, и отмечает, что форма носителя диктует “context-free factoids”. В связке с вашим “пословицы vs эссе” ключевой пассаж такой: где бы сегодня публиковались “Federalist papers”? Не в газетах — “each essay is too long”; на сетевых дисплеях возникает склонность к “pictures… and short ‘bumper sticker’ sentences”, потому что это “what displays do well”.
Но у Кэя есть важная надстройка: он не останавливается на тезисе “давайте всем длинные эссе”. Он говорит: окей, статические эссе — это хорошо, но ещё сильнее может быть публикация моделей/симуляций с гиперссылками на источники и возможностью менять предпосылки и проверять последствия (то есть удерживать причинность уже как интерактивный объект). Ссылка на Мюррея Гелл-Манна: современное образование как “величайший ресторан, где тебя кормят меню”, дают освоение репрезентаций вместо освоения самих идей – и это совпадает с критикой LLM по сравнению с критикой world models. Людей надо тоже учить не как LLM, а как world models). Цель — не “усвоение длинного текста”, а удержание цепочек причин-следствий и возможность критики/вариаций в контрфактическом вопрошании/inquiry к модели.
В более позднем тексте The Future of Reading Depends on the Future of Learning Difficult to Learn Things Кэй делает ещё более образовательный акцент: письмо/чтение — это технологии мышления, которые позволяют удерживать формы аргумента, плохо работающие в устной коммуникации; и формулирует жёстко: “the future of ‘reading’ depends on the future of ‘writing’”. Расширение понятия writing на практически тождественное моделированию у Alan Kay – как системы, которые пытаются “capture, transmit — and most especially — explain important ideas” (то есть письмо/запись как носитель именно объяснений). Письмо ценно тем, что может удерживать формы аргумента, которые плохо работают в устной речи, и расширяет «с чем думать». Это уже напрямую про необходимость учить людей производить длинные структуры (writing/modeling), а не только “потреблять” (reading/quering).

Не универсально (зависит от типа модели):

конкретная “топология” в терминах токенов и текстовых шагов (LLM‑специфика);
набор маркеров/паттернов, через которые реализуется self‑reflection (у diffusion‑LLM, например, есть архитектурные ограничения). [2510.09544] Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models

Довольно универсально (переносится как функциональный принцип):

длинногоризонтное мышление/планирование почти неизбежно требует (i) связного углубления, (ii) проверок/ревизий, (iii) управляемого исследования альтернатив — и “качество” определяется тем, как эти операции организованы во времени/графе.
“иметь доступ к репрезентациям/симуляции” недостаточно: критично уметь калиброванно выбирать, когда и как ими пользоваться (это видно и у world‑model‑агентов). [2601.03905] Current Agents Fail to Leverage World Model as Tool for Foresight
для людей learning sciences описывает тот же класс идей как sense‑making, ментальные модели, метакогниция, representational competence, с сильными границами применимости из‑за когнитивной нагрузки и уровня подготовки. Read "How People Learn II: Learners, Contexts, and Cultures" at NAP.edu

Learning sciences обычно не говорят “понимание про мир, а не про репрезентации” в смысле отказа от репрезентаций. Скорее: понимание требует умения работать с несколькими репрезентациями и переводить между ними. В science education прямо говорится, что обучение требует комбинирования информации из нескольких внешних репрезентаций (тексты, формулы, графики и т.д.), Frontiers | Examining and comparing the relation between representational competence and conceptual knowledge across four samples. Есть данные, что множественные репрезентации могут улучшать обучение и решение задач, но при этом создают высокие требования; возможна “representation dilemma”, когда репрезентация содержит нужную информацию, но ученик не извлекает пользу из‑за недостатка representational competence, Editorial: Registered reports on the role of representational competencies in multimedia learning and learning with multiple representations - PMC. Это практически “меню‑проблема” в терминах Kay: меню богато, но ты не умеешь “есть”.
Проблемы образования людей: умение читать длинные тексты, умение удерживать длинное рассуждение, умение писать длинные тексты, умение уточнять и сжимать длинные тексты (моделировать). Тут проблема в том, что продвинутые методы представления знаний не удерживаются (например, языки паттернов удержались только в software architecture, онтология только в спонсируемых государством областях вроде медицины и биологии и единичных сервисах вроде google knowledge graphs, причинно-следственные графы SCM до сих пор “не пошли в народ”, создание интерактивных моделей по линии Alan Kay не массово, но как-то живёт в финансовых моделях в excel).
Декодер (читатель, bounded observer) должен быть обучен:

структура должна быть доступной bounded observer: иначе автор оптимизирует метрику структуры, которую никто не может распаковать.
отсюда следует понятие оптимальной детализации, scaffolding, и необходимость нескольких “версий” объяснения под разные уровни подготовленности.
характеризация читателя – отдельная большая проблема (как набор характеристик, так и замеры значений), но не только язык, уровень понимания и т.д., но включая такие неявные параметры как наличие времени, допустимая когнитивная нагрузка, особенности архитектуры (учим LLM, world model или человека)
критерии успеха понимания (перенос? контрфактуалы? интервенции? способность исправлять ошибку?) и ходы на формулирование Парето-фронта понимания по этим критериям.