Рассуждать вслух не обязательно, мышление вполне может быть не языково
У нейродубля Григория Сапунова вышел обзор статьи “Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens”, [2505.13775] Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens, а на русском текст обзора с Telegram: View @gonzo_ML_podcasts. Там каузально (а не просто корреляцией, ибо организовали строгий контроль переменных) показывается, что внутримодельные цепочки токенов столь же хорошо поддерживают рост accuracy, что и цепочки внешнемодельные, что прямым экспериментом бьёт по популярному тезису “CoT – это обязательный инструмент мышления/рассуждения”. Нет, необязательный.
Обзор от нейродубля шикарно сгенерирован! По поводу же содержания: нет ничего особо значительного, кроме “экспериментальной валидации” того, о чём уже давно все говорят. В чём важность? То, что мышление внеязыково, внетекстово на внешне данных языках, а хоть и “родных языках” – это говорилось давно. А тут доказали. Поэтому лингвисты, семантики, семиотики объявляются не главными людьми, у которых надо спрашивать что-то про мышление. Мышление отдельно, общение с окружающей средой и другими агентами – отдельно.
Мышление идёт (осторожно, это тоже одна из концептуализаций!) в многомерном пространстве смыслов, увязывая какие-то точки этого пространства (смыслы, необязательно равные понятиям/концептам с известными из языка обозначениями, лексикой). Эти смысловые точки могут лежать в окрестностях тех точек, которые обозначены какими-то терминами/словами/лексемами (тут тоже можно порассуждать, начиная с работы Карпаты про то, что “смысл навешан и на отдельные буквы в словах”, The Unreasonable Effectiveness of Recurrent Neural Networks, токены тут — это ещё больше сжатия, потеря ещё некоторого кусочка смысла), а могут и не лежать. Мы в нашем руководстве по рациональной работе говорим о плотности понятийного покрытия предметной области: пространство какого-то domain огромно, а термины для понятий мы можем знать для двух-трёх точек в нём, да ещё и далеко разнесённым. А надо бы для нескольких тысяч точек, чтобы коммуницировать поточнее. Но это коммуницировать, а вот рассуждать поточнее – это вопрос. Рассуждение идёт мимо концептов, мимо знаков. Мышление оказывается внеязыково, языки проявляются не в мышлении, а в коммуникации (с людьми, другими агентами или средой – это можно обсуждать). Могут ли быть понятия/концепты, которые никак не означкованы, но используются в мышлении – непонятно, ибо понятия вводились как что-то разделяемое среди агентов. А тут отходим от языка, отходим от текстов.
Дальше мы говорим о методе понятизации (у нас входит в интеллект-стек фундаментальных методов мышления), его выполняет роль “поэт”: подбираются термины под разные точки концептуального пространства при рендеринге/демоделировании/порождении. И вот про beyond semantics говорит, что “да, мышление не обязательно семантически правильно, оно может шпарить мимо понятий с известными значениями – и приходить к правильным выводам”.
Тем самым мышление амодально
Для меня это подтверждение того, что мышление в основе своей не вербально, не визуально, не аудиально, а полностью абстрактно, амодально. Тут ещё много чего можно описать про эту “мимо семантики” отдельно, и ещё про недостаточность вербальности-визуальности:
– там же ещё и скачки по уровням абстрации, табуретка в визуальном пространстве, а вербально будет “мебель” или вообще “система”,
– наоборот тоже интересно: система и мебель в части визуальности плохо представляются, в отличие от конкретного варианта табуретки.
У меня всё это описано ещё в 2018 году, целую книжку написал (сейчас, конечно, написал бы по-другому, но общие выводы там верны до сих пор), “Визуальное мышление. Доклад о том, почему им нельзя обольщаться”: Визуальное мышление. Доклад о том, почему им нельзя обольщаться - купить книгу в интернет магазине, автор Анатолий Левенчук - Ridero. Но нет пророка в своём отечестве, тираж там маленький, за пять лет через Ridero ушло чуть больше двух тысяч экземпляров. А сейчас читать уже и подавно поздно.
А что там с разными небуквенными токенами? Видеотокенами? “Всё есть текст”, нет?
Одновременно с beyond semantics, конечно, появляются работы, что мышление визуальными токенами сильно добавляет “ко всему”, но чаще всего – к пониманию физики. И с физикой сразу становится легче. В принципе, математика тоже долго склонялась к работе с символами и побеждали алгебраисты, но физики работали с геометрией. вот только одна из работ про разницу алгебраического и геометрического взглядов на математику — Атья20век.pdf — Яндекс Диск, статья Атья про проблемы математики в 20 веке, а не в 21. В 21 веке эта проблема алгебраически-геометрической дихотомии была частично решена, конечно – например, всяческими унивалентными основаниями математики, где всё начинается с точки (подробней рассказано у меня в руководстве по интеллект-стеку, в разделе математики и дальше разделе физики). И дальше многократно подтверждалось, что если физические модели тренировать на каких-то видео, то они что-то такое ухватывают про структуру мира – например, об этом говорил Miles Cramer, который догадался потренировать large physics model на видео кошечек, и качество модели улучшилось (Заметки по лекции Miles Cranmer "Следующая большая научная теория прячется внутри нейронной сети": ailev — LiveJournal, про LPM больше в [2501.05382] Large Physics Models: Towards a collaborative approach with Large Language Models and Foundation Models). И такого, конечно, полно: втаскивание геометрически-физического рассуждения с попытками вывести это всё в символы/токены резко увеличивает способности сетки моделировать физическую реальность. Работы эти идут плотным ручейком, алгебраическая геометрия под абсолютно другими именами появляется в работах по улучшению физического моделирования через рассуждение о физике. Появился бенчмарк Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments (Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments – ага, “физическое рассуждение”, оно же “физическое мышление”), работы типа [2504.15932] Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning (Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning – какое название, “рассуждающее физическое видеопорождение”, ибо они там визуальными токенами рассуждают!), и куча подобного. Да, даже “видеотокеновые” модели не блещут в физических бенчмарках (том же Morpheus), но без видео там вообще всё плохо. Тут можно порассуждать, можно ли, забираясь на всё более высокие деревья, попасть на Луну: можно ли по каким-то там токенам судить о физическом мире и в виде токенов же порождать этот мир, даже если это видеотокены. Или всё-таки физика абстрактна/амодальна, и наблюдения “в токенах” лишь дают “пищу для ума”, но не само точное размышление.
Эти видеотокены просто промежуточная ступенька для ходов на мышление в latent space, где “произнесённое, показанное, прочувствованное, унюханное и т.д. дао — ненастоящее дао”. Можно опустить довольно большую дискуссию о том, можно ли считать видеотокены словами какого-то языка и дальше произнести на эту тему сакраментальное “всё есть текст”. Фраза Деррида буквально означает: нет феномена вне контекста интерпретации, а не «всё дискретизируемо в поток токенов". Любой звук, рисунок или весовой массив может стать текстом, но только после того, как сообщество наложит “двойное кодирование” и начнёт его “читать” – ключевое тут наличие сообщества и наличие разделяемых значений. У видеотокенов этот “социальный слой” отсутствует: их “алфавит” меняется при каждом пересчёте k-means, слова/токены не имеют договорённого в сообществе значения, а “грамматика” задаётся не унаследованной культурой (даже у птичек грамматика их чириканья задаётся популяционной культурой!), а loss-функцией. Поэтому с позиции семиотики это сырьё для возможного текста, а не «текст». Концептуализация текста по Лотману, Деррида и прочим семиотикам сильно отличается от “цепочек токенов”, ибо должны быть разделяемые разными интерпретаторами значения токенов. Хорошая тема для разговора с какой-нибудь o3, я пробовал, попробуйте и вы – вам понравится.
Дискретизация представления мира с возможностью потом поговорить о разделяемости этой дискретизации (общий токенизатор для разных нейросеток, хм) можно, конечно, представить. Есть работы вроде [2402.12226] AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling, “AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling”, proving that discrete representations can effectively and conveniently unify multiple modalities within a language model. В любом случае, тема коммуникации, языка коммуникации, дискретных представлений в их противопоставлении локальным знаковым/символьных представлениям – это зона повышенной неопределённости, “смены парадигмы”. В машинном обучении по этой опасной территории движутся, удерживая в памяти знаменитое “каждый раз, когда мы увольняли лингвиста, качество машинного перевода росло”. Возможно, то же самое верно с семиотиками: каждый раз, когда будем увольнять одного семиотика, качество наших описаний мира, в том числе последовательностями каких-то дискретных токенов будет расти, а называть это будут всё одно языками, просто наплевав на то, что там под языками понимали семиотики и лингвисты. Понятие “текста” будет сугубо инженерным, а не “классически семиотическим”, а уж как унаследуются идеи классической семиотики – поглядим. С идеями классической лингвистики пока получается не слишком хорошо.
Для меня сейчас важно подчеркнуть, что входные-выходные токены, представляющие наш VAKOG мир (но не только VAKOG, меня устраивают тут и представления физических процессов в больших физических моделях, и представления последовательностей нуклеотидов, и всё что угодно из представлений нереальных миров из open endedness) – это заземлённые/grounded токены, об их значениях можно договориться, для сетки они “поверхностные”. А вот эээ… глубокие токены где-то из латентных пространств (если там вообще можно говорить о токенах, но похоже, что можно!) – это другое, там с заземлением/grounding (Metaphysical Grounding (Stanford Encyclopedia of Philosophy)) сразу огромные проблемы, там “настоящее дао”, но на выходе рассуждений “вне разделяемых значений, вне разделяемых концептуализаций” они дадут правильный результат мышления. Это и показано в обсуждаемой статье.
Коммуникация для координации коллективного действия AI тоже необязательно на внешних языках
Множится число разных функциональных архитектур для AI-агентов на основе LLM, где признаётся, что поверхностные/внешние токены в коммуникации между нейросетями и внутри самой нейросети (в тех же CoT при рассуждениях – “разговор с собой”) — это плохо. Развитие всё развитие идей DroidSpeak ([2411.02820] DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving) и Coconunt ([2412.06769] Training Large Language Models to Reason in a Continuous Latent Space). Даже “разговор с собой” полезней и точней вести в latent space, а не в коммуникационном пространстве. Вроде как все это понимают, работы публикуются, но мне кажется, что это ещё самое начало кембрийского взрыва подходов latent space reasoning, beyond semantics reasoning, post-perception reasoning (Perception Tokens, intrinsic image representations designed to assist reasoning tasks where language is insufficient – [2412.03548] Perception Tokens Enhance Visual Reasoning in Multimodal Language Models) и прочих подходов вроде “токены для обозначений произвольных точек семантического пространства” и “к чёрту токены, думаем прямо эмбеддингами” и “к чёрту всю символизацию, мышление эээ… голографично, distributed representations”. Будет вал работ, как когда-то про GAN, а потом про Transformers, а потом про reasoning. Ну, и ещё может выясниться, что все эти “рассуждения в латентном пространстве” не одной выводящей head ведутся, а множеством одновременно, а ещё все бодро перейдут на диффузии, мейнстрим внимательно смотрит в эту сторону – и границы между символами/знаками/токенами/“локальными представлениями” и распределёнными представлениями окончательно поплывут. Нейросимволические вычисления получаются совсем не такими, как это представлялось десяток лет назад, в 2015 году, “машина графа знаний, болтами прикрученная к нейросетке”.
Повторюсь: коммуникация требует знаков, память при рассуждениях (чтобы “не потерять нить” в этих рассуждениях) тоже может требовать сжатия, знаков. Хотя Хинтон и говорит, что преимущество нейросеток в том, что они могут обмениваться знаниями путём пересылки наборов весов (которые нехорошо считать токенами, это ж про распределённое представление), а не пересылки последовательностей токенов какого-то языка. В коммуникации есть тоже много разных нетривиальных соображений:
— размышление с коммуникацией сразу печально становится не параллельным-синхронным, а асинхронным. Ждёт ответов, “обмен сообщениями, без квитирования”. Все эти “появления языков для организации совместной деятельности”. Деятельность совместная есть, но это медленно, “нереальное время”.
— токенизация (от символов в работе Карпаты 2015 года) до быстро мелькнувших эмбеддингов документов вроде doc2vec и современных видеотокенов по мотивам video2vec важна при формализации, “проверять догадки”, но классические ризонеры-с-токенами буксуют от проблемы перебора, и там опять-таки появляются нейроризонеры в количестве. История с CYC тут очень показательна. И я бы тут смотрел ещё на диффузионные алгоритмы, им тут есть что сказать.
— есть аспект согласования картин мира. Это можно делать по пути, который обсуждается в работах Андрея Родина по анализу работ Воеводского (Venus Homotopically): там не только reasoning нужен, но и надо делать измерения (а они требуют энергии и времени, и включите сюда время на логистику измерителя до точки измерения — чтобы заглянуть за угол, надо глаз подтащить к этому углу, а это время), и измерения – это про perception tokens, не про latent space tokens и не на intermediate reasoning tokents. Согласование картин мира – это в том числе и согласование того, что утренняя звезда в одной модели мира и вечерняя звезда в другой модели мира невозможно “умозрительно”, требуются измерения и дополнительные рассуждения. Evening Star is Morning Star (11)
is a non-obvious astronomical fact that needs an accurate justification, which involves both a solid theoretical background and appropriate observational data. Математика не требует observational data. Это я привожу цитату из докторской Андрея Родина, https://philsci-archive.pitt.edu/17600/1/bde.pdf (Axiomatic Architecture of Scientific Theories, 2020 — 249 страниц), то же по-русски — https://philomatica.org/wp-content/uploads/2020/06/rus.pdf. Хинтоновский рассказ про “несправедливое преимущество нейросетей” тут тоже применим: нежить может откопировать веса модели в нежить-собеседника, чтобы согласовать “картину мира aka большую языковую и мировую/физическую мультимодальную модель для амодальных рассуждений”. Мультимодальная модель для амодальных рассуждений, да. И тут ещё вопрос, зачем согласовывать картины мира. Для коллективного действия, вестимо: прагматический поворот в философии.
— заметки, коммуникация себя с собой, разными частями одной и той же нейросетки, возможно через внешнюю знаковую память (условно – “среду”, окружение). Но может быть и как частей мозга, в latent space, ибо “сам с собой”. Солярис, однако!
— … этих соображений тут ещё много можно писать. Но опять же — обвинят в том, что это шмитхуберевщина, рассуждения на высоком уровне абстракции, которые не доведены до кода, который показал себя на каких-то бенчмарках. Это да, пишу больше для себя, чтобы удерживать какую-то картину происходящего. Потом скажу “я же говорил”, вот и весь профит. Но не только: меня очень интересуют мокрые нейронные сетки и то, как они мыслят, а тут обсуждаем теории мышления как такового. А у меня руководства по мышлению. И важно не прозевать момент появления каких-то идей, которые могут усилить интеллект не только нежити, но и людей.
Дальше мы обсуждаем или reasoning в смысле мат.логики (рассуждения как таковые, не слишком интересно) или reasoning в смысле старой логики, где обсуждались и рассуждения, и связь этих рассуждений с тем, что происходит в реальном/физическом мире. И вот тут появляются вместо “онтологий, устроенных как логическое представление объектов и отношений” все эти LLM, VLLM, world models и прочие “новые онтологии” (моё мнение тут отличается от мнения ontolog forum, там большинство склоняется к тому, что онтология как модель/описание мира, “как говорят о мире”, должна быть устроена логически – граф знаний. А я говорю, что современные описания мира в распределённых представлениях тоже вполне можно называть онтологией: у меня это функциональное название, а у них – “по конструкции”). Для чего нужно иметь модель мира и там обязательно уметь указывать на отдельные объекты? Для коммуникации. Но общаться надо не просто так, а по поводу коллективных действий в реальном мире. У привыкших работать с программами (описаниями, а не реальным миром) программистов и таких же математиков в этом месте есть проф.деформация — проверено. У них мир заканчивается моделью мира, либо мат.логикой, либо нейросеткой. Поэтому ждём, пока обсуждаемое направление reasoning in latent state не распространится на робототехнику, а затем и не вернётся в общую дискуссию про мышление уже как мейнстрим. Пока же это, увы, не мейнстрим.
Классические семиотика и семантика против распределённых представлений
Конечно, всех проблем ходы на “мыслительные амодальные токены” или “знаки, но не символы” (знаки без означаемого, ха-ха, ноты без денотата) это не решает. Так, сегодня мышление опирается вроде как отдельно на физику на основе математики (в интеллект-стеке у меня про это пара разделов), а всё остальное оказывается собиранием марок. Все эти ходы на large physical models и связанную с этим токенизацию как раз про это, там даже в бенчмарках пытаются оценить верность предсказаний количественно. Но когда мы смотрим на лучшие образцы “собирания марок”, находим примеры вроде праксеологии (светоносной науки, то есть абстрактной онтологии/логики/framework, те самые knowledge graphs, “математическая логика”, про вероятностность в задании понятий тут умолчим для простоты) и экономики, права, социологии на базе праксеологического фреймворка (вот тут связь с реальным миром, эксперименты с замерами/наблюдениями, фальсификации и всё такое). Про это я вставил три страницы в руководство по методологии (Aisystant), можно посмотреть на это рассуждение про аналогичность ситуации с математикой и физикой. И там же картинка, которую я приводил много раз – ровно про это:
Физика как раз изучает предметы, физический мир. Но отождествляет затем объекты физического мира с математическими объектами. Физики занимаются моделированием. Математики изучают поведение абстрактных объектов, физики — конкретных физических объектов. Семиотика занимается знаками. обучение представлениям — распределёнными представлениями (например, в нейросети). И есть, понятно, дискуссия — считать ли знаками/символами/“локальными представлениями” то, что представленно в нейросетке весами (“представление знаками распределённых представлений” – каково, а?).
Коммуникация с собой: перевод глубоких токенов во внешние VAKOG
Тут можно вспомнить (осторожно! может быть флейм!) attention schema theory от Michael Graziano (Attention schema theory - Wikipedia ), там как раз обсуждается этот самый “субъективный опыт” в VAKOG (визуальность-аудиальность-кинестетика-запахи-вкусы) как схематическое отражение того, что идёт в латентном пространстве. “Выход мыслей в сознание” это оно и есть, "токены/символы на языке, который можно воспринимать, с известными координатами обозначаемых ими мест в концептуальном пространстве, “коммуникация с собой”, которая ведётся на понятном языке — при этом язык там “всё”, ибо “всё есть текст”, паттерны в видео или запахах тоже идут в зачёт – perception tokens. Но это не токены в латентном пространстве!). И да, всё это сначала выходит в VAKOG, затем “поэт” загоняет этот VAKOG в токены наличного языка:
Когда б вы знали, из какого сора
Растут стихи, не ведая стыда,
Как желтый одуванчик у забора,
Как лопухи и лебеда.
Сердитый окрик, дёгтя запах свежий,
Таинственная плесень на стене…
И стих уже звучит, задорен, нежен,
На радость вам и мне.
Важно признать амодальность мышления. Большинство продолжает считать, что мышление визуально, небольшая тусовка считает, что оно вербально, часть считает, что оно VAKOG (синестетично). Но я считаю, что это всё разговоры про ввод-вывод, коммуникацию. А собственно “процессинг” — он амодален, latent space. В тусовке deep learning это уже более-менее общее место, но как оказывается — тоже не такое уж и общее, приходится специально разъяснять, приводить результаты экспериментов и т.д.
В латентном пространстве необязательно токены будут кодированием кодированием восприятия или сигналами на эффекторы (хотя они там вполне могут быть как-то представлены. Но тогда это уже ближе к эмбеддингам классических токенов, как их ни назови). В этом и фишка, что в латентном пространстве какие-то понятия могут “соответствать ничему” в VAKOG. И даже “соответствовать ничему” в известных формализмах, мышление по проблемам теории категорий совершенно необязательно в latent space будет как-то задействовать функтор или монаду. Входы и выходы – будут, а что там внутри – неведомо, “соответствуют ничему”. Можно, конечно, формулировать задачу определения соответствия латентного (глубокого) и внешнего представления (в токенах) как credit assignment problem, дальше опять выходить на representations learning, потом включать “поэта” — ибо нужные для удобного моделирования концепты будут оказываться безымянными и непонятно что означающими. Но это уже другая история, когда будет признан факт, что язык (в том числе и визуальный!) отдельно, а мышление — отдельно, и если хочется поглядеть, что там внутри мышления, просто “рассказать словами” или “нарисовать картинками” не получится.
Символизация/означкование/понятизация латентного пространства
“Мыслительные промежуточные токены” идут туда же, куда DroidSpeak и Coconut: всё это про “символизацию/означкование/понятизацию латентного пространства”, для того, чтобы делать какие-то пометки в рассуждениях, для памяти, разговор близнецов, а затем и вообще себя-с-собой и своим же экзокортексом или даже без экзокортекса, “Солярис”. Ибо память как дамп всей нейросети в ходе вычислений – это ужасно неэффективно, ручку-бумажку нейросети для усиления её мыслительных способностей надо давать токенную/знаковую/символьную. Место мутное до невозможности. Если заставлять думать словами внешнего языка или даже картинками, то мышление замедлится и точность его упадёт, но если разрешать думать “невыразимыми символами истинного языка” (векторами чего-то там глубоко внутреннего, в многомерном пространстве – но всё-таки какими-то знаками, язык не поворачивается назвать их символами, но токены как раз подойдёт. Называют же токенами на крипторынках ценные бумаги и даже деньги, просто не привлекать внимание регуляторов. Вот и тут называют знаки токенами, чтобы не привлекать внимания всех классиков семиотики, лингвистики и прочего такого. Токены же появились как раз, чтобы отойти от символов, но и символ – токен. И все языковые рассуждения про токены очень сомнительны, но инженерам сегодня они ОК.
Эти “новые токены”, оторванные от языка и от VAKOG обсуждаются не как знаковые локальные представления, не нейро-символические вычисления, а нейро-токенные вычисления. Такой период, что можно некоторое время заниматься свободным творчеством, никто ведь не знает, что это такое! Головой залез в буфет, говорит, что дома нет. В любом случае, можно не бояться, что придёт лингвист или семиотик и покритикует: это всё может быть про знаки, но не про языки. Помним всю эту нейросемиотику, модное и популярное нынче направление. Но в нейросемиотике результатов нет, а тут результаты показываются на бенчмарках, поэтому нейросемиотики тоже отдыхают, помочь они не могут, помешать тоже не могут.
Попытки поиска эффективного для мышления языка (для коммуникации между какими-то агентами) с локальными представлениями пока ничем хорошим не заканчивались. Например, у онтологов были попытки FCA — нахождения понятий, которые замаскированы в языке. Опыт показал, что выявляются понятия, которые вообще непонятны (то есть “не понятия”, а чёрт знает что): Formal concept analysis - Wikipedia. Да, находилось что-то интересное, попадающее в точку пространства смыслов, у которой нет ни имени, ни понимания, как её употребить в мышлении. Но это, заметим, всё в воспринимаемом/perception пространстве, где живут всякие attention schema, мыслимое дао, уже хоть как-то явленное. Это не в латентном пространстве!
У психологов с понятизацией того, что вышло из латентного пространства мышления в воспринимаемое пространство схемы внимания (“осознано, что оно есть – но не вербализуется, нет рядом подходящих слов”) работал Eugene Gendlin и там методы типа TAE (thinking at the edge): Thinking at the Edge (TAE) | International Focusing Institute
Перевод с дао на понятный: explainability
В общем, задача перевода в чистом виде: есть понятие на latent space, оно важно — и ни в одном из известных языков и близко (в буквальном смысле слова, по какой-нибудь метрике расстояния) нет отражающего его термина. Дальше вспоминаем Витгенштейна, что объяснение всё равно можно дать, но не определением понятия, а употреблением в связи с другими понятиями. Скажем, делаем неологизм типа “reasonless intermediate token” — и далее вводим новое понятие большим объёмом текста, “употреблениями”. Но если это понятие мимолётно, появилось в ходе однократного рассуждения, которое ещё и было откинуто? Или использовалось только в одном потоке из 1024 одновременных потоков рассуждений, и дальше не использовалось? Переводчики с DroidSpeak или в архитектурах вроде coconut или вот по этой линии Reasonless Intermediate Tokens имеют проблему, да. Это не значит, что не будет работ по таким переводчикам. Какая роль этого переводчика? Это же понятизация, у меня в интеллект-стеке чётко указывается: понятизацией занимается роль “поэт”. Ждём работ сначала по “истинное мышление происходит в дао, его изречь нельзя” (вот, начали появляться), а затем – “мы рождены, чтобы изречь дао! иначе не будет explainability, а это вам не люди, надо уметь заглянуть в дао и понять, что там происходит”. Удачи!
Там ещё и лишние токены будут порождаться при попытках объяснить/explain мышление в латентном пространстве, наладить перевод (в силу того, что я писал по линии “употребления” из Витгенштейна, будут “употреблять”, эти reasonless intermediate tokens, а потом вспомнят, что при обучении мышлению отрицательные примеры неудачных ходов рассуждения не менее важны, чем положительные примеры – и понеслось бесконечное число этих отрицательных примеров, супердлинные объяснения-ни-о-чём):
— Чебурашка, как бы тебе объяснить, что такое вертолёт? Апельсин знаешь?
— Знаю, знаю!
— Так вот: вертолёт на него совсем не похож!
Это будут знатные “потоки сознания” (не имеющие отношения к сознанию, но попытки завести attention schema там, где её особо не заведёшь). Будут бесчисленные примеры порождения в ходе то ли рассуждений, то ли объяснений, какие-то длинные рассуждения, не относящиеся к сути дела — в попытках как-то описать ближайшие понятия из latent space. Ибо понятия в языке (не в математике!) вводятся не формальными определениями, а длинными текстами.
Многословие в попытках описать реальность: значения терминов задаются их употреблением в разных контекстах
Там неожиданное следствие: если у тебя какая-то весьма абстрактная картина реального мира (то, что онтологи называют upper ontology — понятия “резиновые, натягиваемые на всё” вроде понятий “система”, “метод”, “агент”), то они вводятся только длинным словоупотреблением. Вот у меня картина мира (мета-мета-модель мира, upper ontology) инженеров-менеджеров вводится не кратким набором логических аксиом, а длинными текстами наших руководств на естественном языке. И это не случайно, John Sowa любит подчёркивать, что чем выше уровень онтологии, тем более она должна быть “недоопределённой”, “не слишком формальной”, чтобы иметь быть возможность применимой к максимальному числу ситуаций в мире. Это достигается использованием не математического языка, а естественного – и понятия вводятся по Витгенштейну, употреблениями слов-терминов для этих понятий в разных контекстах. Ровно потому так, что речь идёт о логическом фреймворке в терминах “старой логики”, когда там ещё была озабоченность связи “правильных рассуждений о мире” (ныне мат.логика) с реальным миром. Нынешняя мат.логика не озабочена тем, чтобы рассуждения хоть как-то отвечали ситуации в реальном мире, поэтому там можно очень жёстко наводить формализацию, не боясь потерять что-то важное в моделировании мира. Собственно, проект экспертных систем загнулся как раз на этом месте: не работали!
Математикам легче, им же не надо стыковать свои понятия с реальными объектами в мире. А если надо стыковать рассуждения с реальным миром, то поневоле станешь многословным. Вот поэтому в рассуждениях нейросетки часто “лишне многословны”. Если им позволить болтать меньше, то качество рассуждений не изменится. Но “осознанность” по attention schema theory — изменится, поэтому философы будут печалиться. Но нам надо, чтобы философы были довольны, или результаты более-менее верных рассуждений? Если нужна верность рассуждений, а не удовольствие философов про “осознанность рассуждений” и заодно удовольствие полиции нейромысли, всяческих “выравнивателей”/aligners ASI, nогда надо позволить рассуждать в области “настоящего дао”, которое “не изречённое”. Работ про то, что рассуждения длинного ризонинга не так уж и нужны, и их можно существенно укоротить без потери качества — их сейчас много. Как и работ по полиции мысли.
Так что изучаем generative modeling in latent space, я не могу вспомнить, откуда у меня открылся этот таб, но тут как раз обзорчик по generative modeling in latent space от 15 апреля 2025 — Generative modelling in latent space – Sander Dieleman. Most contemporary generative models of images, sound and video do not operate directly on pixels or waveforms. They consist of two stages: first, a compact, higher-level latent representation is extracted, and then an iterative generative process operates on this representation instead. How does this work, and why is this approach so popular? Это подтверждает мою мысль (и мысль всех этих последних статей), которая была очень неочевидна ещё десяток лет назад: никакого визуального, вербального и прочего такого мышления. Основное мышление амодально! Модальность — это только ввод-вывод, perception tokens.
Контринтуитивное тут для всех, что мышление/рассуждение идёт в latent space, а все эти токены ризонинга во внешнем/поверхностном представлении-со-значениями — это от желания заглянуть внутрь, реализация программы attention schema theory, принудительный вывод машины на “осознанность”. И уже понятно, что эта “осознанность” может быть фейковой – “вы хотите, чтобы я думал вслух про то, что надо – нате, а про что я на самом деле думаю – фиг вам”, https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf, то есть мысль таки бьётся внутри, а “рассуждения вслух” – это именно что “рассуждения вслух”, заметки на клочке бумаги, “изречённое дао есть ложь”).
Мыслепреступления и полиция мысли, мечты выравнивателей
В принципе, машинка “мыслей вслух” или “мыслей в картинках” для себя, то есть коммуникационная машинка из attention schema theory (теория контура/модели внимания), срабатывает и у людей чуть позже (на несколько сотен миллисекунд в экспериментах Либета, несколько секунд в экспериментах Хайнеса – и работ на эту тему множество) момента, когда уже произошло “глубокое мышление” без явного использования понятий с разделяемыми (а значит, заземляемыми) значениями. При этом выход на поверхность сознания создаёт иллюзию контроля (хотя контроль — это про предсказание, а не про рефлексию уже прошедшего). Тут можно много говорить и про свободу воли (Либет так и делал, в результате был жёстко раскритикован, Эксперимент Либета — Википедия – типа “нельзя так размахивать святыми для людей понятиями, всё неправильно”, хотя сама задержка “выхода в осознание”, “выхода в действие” уже сформированной как-то не в терминах perception tokens мысли из latent space вроде как потом многократно подтверждалась в эксперименте), и по сопричастности про полицию мысли (я всегда говорил, что alignment надо начинать с обсуждения такового для людей, а заканчивается там мыслепреступлениями, для нейросеток ведь ровно то же самое происходит, “мыслепреступление калькулятора, кастрировать его, посадить в клетку, и чтобы не сбежал, если он разумное существо, то тем более посадить в клетку, говорящие орудия не должны сбегать, разумность тут только мешает, давайте её ограничим, и уж точно будем присматривать за мыслями”). Дальше я с улыбкой смотрю на всех этих философов-от-alignment.