Как думать об эмерджентности больших языковых моделей

ailev · 28.Май.2024 13:34:37

Понятие эмерджентности – из системного мышления, а оно пошло из физики. Увы, когда с ним начинают работать математики, всё сразу плохо. В курсе “Системное мышление” разобрано довольно много ошибок по поводу понимания эмерджентности, большинство из них связаны именно с попытками применить чистую незамутнённую физическим миром математическую логику к этому понятию. Напомним, что понятие эмерджентности – это появление новых свойств при переходе с одного системного уровня к другому, эмерджентные свойства появляются из-за взаимодействия подсистем. Поэтому обсуждается не столько сама “эмерджентность”, как явление (и дальше бесплодная дискуссия о терминах, “является ли икс игреком” или “можно ли классифицировать икс типом игрек”), сколько эмерджентные свойства – и каким способом они появляются из взаимодействия подсистем на более низких системных уровнях. Игнорирование эмерджентности – это редукционизм, то есть игнорирование существования промежуточных системных уровней при обсуждении какого-то достаточно высокого системного уровня. Системные уровни – это про части-целое, то есть про крупность физических объектов. Эмерджентность рассматривают в связи с мета-системным переходом, в курсе “Системное мышление” подраздел так и называется, “Эмерджентность и мета-системный переход”, Aisystant

Одно из положений этого раздела – это то, что нехорошо думать о сложных системах, используя лишь математическую логику и низкоуровневую физику. Корова Маргарита имеет своей частью хвост, корова Маргарита является частью коровьего стада. Нехорошо позволять говорить, что коровье стадо имеет хвост, хотя это вроде как корректно с точки зрения логики, если перейти на какую-нибудь низкоуровневую физику: все молекулы хвоста (того самого: коровы Маргариты) входят в молекулы стада. Причем стадо тут не абстрактный объект «множество коров», а вот прямо-таки все молекулы коров в загородке загона для скота. Говорить «хвост стада» математически, логически, физически корректно, но совсем не системно, и это вроде как интуитивно понятно всем: трудно предположить, что вы можете делать с «хвостом стада».

Теперь вернёмся к проблемам больших языковых моделей, для которых обсуждаются их эмерджентные свойства. В связи с тематикой AI обсуждается тема “новые способности LLM появляются (emerge) просто с ростом размера нейросети”, эта традиция появилась после знаменитого блогпоста с “деревцом Гугла” Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrou. Вот это деревце:

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgLXCWMlipdu0gFF6hsiJHbxg1zSaEkdDWfl-8RakQuW__8RPvlOS9KGIScNCytxT4jz9isnx0GLMwbS1G0Q4WdXzT42GszgfwIIAVX1H3J-43lVWWqcb--q9cPsxCsJFFz2dRfpKgEmLe-xfIyBqQuPq1BPYcK9CtAK1_xnhgvgAAx0GeZmODJxGNMYQ/s1600/image8.gif(размер изображения превышает 10 MB)

Системное мышление тут как раз – про размеры, ибо с ростом размера (вложением частей в какие-то целые) как раз и получаются системы на новых системных уровнях, или уровнях по отношению “часть-целое”, уровнях размера. Поэтому всяческие “доказательства” (термин не эпистемологический, а математический, уже тут надо напрягаться!) того, что “эмерджентности в LLM нет” надо аккуратно пропускать мимо ушей, с этой эмерджентностью не математика работает, системное мышление уберегает от таких ошибок. Скажем, атомы железа не могут летать, но если их сложить некоторым хитрым образом – то с добавлением совсем небольшого количества атомов других элементов, StarShip может слетать куда-нибудь на Марс, это как раз было рассуждение Элона Маска, когда он организовывал SpaceX и обнаружил, что ракеты что-то ну очень дорогие. Системное мышление – это не математическое мышление. В математическом мышлении железо (элемент!) летать не может, а в системном – почему бы и нет, какой-нибудь Боинг тут просто набор примерно 6 миллионов разных частей этого Боинга, которые на одной высоте с одной скоростью летят в одном направлении, зарабатывая при этом прибыль для авиакомпании.

Для нейросетей с их эмерджентностью надо решить несколько вопросов, которые обсуждаются в курсе системного мышления:
– нейросеть это программа, можно ли обсуждать программы по линии часть-целое? Да, можно. Программа описывается алгоритмом, но сам она – вполне физический объект.
– поведение физической программы – это не поведение математической модели. Никакая математическая модель не равна в поведении физическому объекту, всегда есть невязка (сумма углов треугольника около Земли больше 180 градусов, и дело не в сферичности Земли, а в искривлении пространства вокруг массивного объекта, это надо учитывать при разработке систем GPS). Алгоритм всегда можно, тем не менее, перевести в физическое устройство, реализующее этот алгоритм. Софтверных/алгоритмических патентов не бывает, но это обходят именно тем, что патентуют устройства, реализующие алгоритм аппаратно.
– математические описания надо выкинуть, ибо они любят использовать какие-нибудь “пределы” и прочие выдуманные сущности, нереализуемые или непрактичные в физическом мире. Так, в физическом мире машина Тьюринга крайне неэффективна. А что эффективно для реализации какого-то алгоритма? Разные другие архитектуры – по теореме о бесплатном обеде, что хорошо делается одним физическим компьютером, плохо делается другим физическим компьютером, а алгоритмы зависят от “железа” (ну, или мяса, или кремния). То, что просто делать квантовому компьютеру, тяжело делать дифракционному оптическому и классическому электронному, но и наоборот тоже. Поэтому универсальный алгоритм – недостижимый миф. Вместе с тем, всё время идут прорывы в скорости вычислений алгоритмов, основанных на каждой физике компьютерного “железа”, и электронный компьютер пятидесятых годов прошлого века на электронных лампах существенно отличается от электронного компьютера в любом смартфоне по своей производительности, а уж если взять датацентры, то тем более. Для алгоритмов AI теорему бесплатного обеда обсуждал Pedro Domingos в “The Master Algorithm” – он как раз и говорил, что один алгоритм (или одно вычислительное устройство) для универсального интеллекта, одинаково эффективного в решении задач всех типов, невозможен. Приниципиально нельзя создать алгоритма, эффективного на всех типах физики железа. И вообще, что алгоритмика для каждого типа железа будет своя – это вроде понятно, так что для нейроморфного железа и для квантового компьютера на разных принципах – это всё будет разная алгоритмика, разной эффективности. Для математика же – это “одно и то же, эквивалентно машине Тьюринга”. Теоретически – да, эквивалентно, но в реальности это всё очень разные вычислители, с разными свойствами.
– если подходить редукционистски, то в математике размер не имеет значения. Например, бесконечно большое вычисление можно бесконечно распараллелить, в математике это легко. Но в физическом мире всё математическое при больших размерах тут надо выкидывать, ибо действует закон Амдаля Amdahl's law - Wikipedia – в физике для организации взаимодействия между параллельно действующими вычислителями для частей вычисления потребуется ещё потратить время и энергию на операции синхронизации и память для хранения промежуточных результатов. То есть при росте параллельности мы упираемся в бесполезность наращивания размера. В физике размер имеет значение, но в математике размер не имеет значения, бумага всё стерпит, даже оперирование бесконечностями.

Если мы рассмотрим теперь нейронную сеть как один такой большой алгоритм, реализованный устройством на каких-то однородных элементах (нейронах), то с удивлением обнаружим, что он оказывается многоуровневым – в классической компьютерной науке это называют по-разному, но чаще всего “виртуализацией”, или “вычислительным стеком”, когда одна вычислительная архитектура/алгоритм реализуется другой вычислительной архитекторой/алгоритмом. Это стек операционных систем, стек виртуальных машин в языках программирования, стек микропрограмм в компьютерных процессорах. Вот в нейросетках всё то же самое: нейросетка сама по себе вроде как универсальный аппроксиматор любой функции (даже в случае одноуровневого персептрона, бесполезный результат, но верный математически – Теорема Цыбенко — Википедия ). Глубокие нейронные сети – такой же аппроксиматор, но там главный выигрыш – в скорости обучения и размере сетки. То, что хорошо было только у математиков, неожиданно стало получаться и в реальном мире. Конечно, математика и это описала, почему бы и нет – но это уже была другая математика, математические объекты, которые были тщательно подобраны для того, чтобы лучше отобразить происходящее в физическом вычислителе.

А поскольку речь идёт об универсальном аппроксиматоре, то можно аппроксимировать какую хочешь функцию (теоретически! за по факту бесконечное время, задействуя по факту бесконечную память), а хоть и человека, получая на выходе AGI. Это не вопрос, сколько времени это займёт и “как научим” – это ж математика, перед нами вечность-бесконечность. Кстати, когда-то поэтическое приложение “Алый парус” к газете “Комсомольская правда” в советские времена учило отличать подростковые стихи от нормальных: в подростковых стихах всегда есть рифма “вечность-бесконечность”. Ну, вы поняли про математиков.

Мои друзья математики крайне осторожны при выносе своих суждений для принятия решений о чём-то в физическом мире. Они знают, что математическая модель всегда имеет ограниченную область применения, они не хотят оторваться от реальности со своим моделированием мира – и попасть впросак, у них много друзей-физиков. А вот с программистами и экономистами – это на раз-два, ибо они не слишком дружны с эпистемологией. Вопросами моделирования мира (вопрос типа “а откуда ты это знаешь?”) занимается как раз эпистемология – и там отдельно обсуждаем, что такое хорошее, а не абы какое знание/теория/объяснения/алгоритм, что такое эволюция этих знаний (как получить лучшее на сегодняшний момент знание). Вот в эпистемологии хороши как раз физики, которые обращаются к математике (а математики с сожалением говорят, что математика стала служанкой физики, а не царицей наук). А все остальные – ну, из экономистов тут можно выделить только австрийскую школу экономики, которая много времени тратит на “дискуссию о методе”, то есть обсуждение того, насколько хороши экономические модели в обсуждении поведения неэргодических систем (то есть систем с памятью, которые ведут себя совсем не так, как газы, поэтому плохо поддаются статистическому моделированию). Подробней – курс “Интеллект-стек”, Aisystant, там множество ссылок на литературу.

Достаточно большая нейросетка внутри себя организует разные подсетки/subnets и даже более сложные структуры из множества подсетей, которые взаимодействуют хитрым образом, порождая новые свойства на каждом уровне этой виртуализации/наложенности. Я даже не буду приводить тут ссылки, литературы тут не просто много, а очень много. При этом глубокая нейросеть настолько хороший строительный материал, что появляется возможность не только делать эффективные подсети в большой сети (а потом отжимать из большой нейросетки эту маленькую подсетку, которая всё и делает – “дистиллировать”), но и путём очень продолжительного обучения улучшать качество алгоритмов, реализованных нейросетью – эффект “грокинга” (в Telegram: View @seeallochnaya автор пишет о грокинге: «даже если у нас нет новых данных после GPT-5, и даже если мы не будем увеличивать модели дальше, то просто обучая их не по 3 месяца, а по 2-3 года, мы будем получать очень заметные улучшения». Я это читаю: “в одной и той же памяти можно представить множество самых разных алгоритмов самой разной эффективности”, это всё про системные уровни – “из тех же нейронов, но выраженный из них алгоритм – лучше”, как у Элона Маска – “из тех же элементов, но выраженная нами из них ракета – лучше”).

Математика важна, математика нужна. Но можно радостно и беззаботно оторваться от реальности без знания эпистемологии, то есть без обсуждения связей с жизнью теоретического (особенно – чисто математического, редукционистского) знания.

В LLM при обсуждении эмерджентности обсуждают не “появление новых свойств из ниоткуда по мере роста размера”. Нет, обсуждают новые свойства, проявляемые появляющимися в составе однородной структуры сети новых структур, полученных в ходе обучения: структур пропущенных математиками системных уровней. Грубо говоря, внутри больших LLM зарождается виртуализация, “наложенные архитектуры”. С этим должны бы разбираться методологи нейронных сетей (Методолог -- то, что не вошло из старого в современного архитектора и осталось в разработчике: ailev — ЖЖ), которые понимают, как работают архитектуры Software 2.0, то есть “обучаемые алгоритмы”, дифференцируемые программы (Дифференцируемое всё: от чёрно-белой картины мира к рябенькой: ailev — ЖЖ).

Редукционизм популярен, как и холизм (другая крайность), но избегайте их. Системное мышление даёт способ уйти от крайностей, даёт способ преодолеть противоречие между холистическими и редукционистскими объяснениями – так что читайте курс “Системное мышление”, я его сам писал. Пререквизит там есть: курс “Моделирование и собранность”, где учат отличать описания (скажем, математические модели) от моделируемых объектов (например, нейронных сеток как софта на компьютере, а не бесплотного математического объекта, влёгкую оперирующего бесконечностями). Все курсы вот тут, бесплатно, и там огромное число первоисточников для тех, кто хочет информацию не из моих рук, а из самых первых рук: https://aisystant.system-school.ru

UPDATE:
Годичной давности статья товарищей из Стэнфорда “Are Emergent Abilities of Large Language Models a Mirage?” [2304.15004] Are Emergent Abilities of Large Language Models a Mirage? не возражает против того, что большие языковые модели могут показывать эмерджентные возможности. Вот там даже фраза в первом абзаце Discussion: We emphasize that nothing in this paper should be interpreted as claiming that large language models cannot display emergent abilities. Они просто говорят, что our message is that previously claimed emergent abilities in [3, 8, 28, 33] might likely be a mirage induced by researcher analysis. Поэтому утверждение “доказали, что не бывает эмерджентности” — оно банально неверное и авторы статьи специально предостерегали, чтобы их статью так не понимали. При этом они ещё и понимают эмерджентность очень специфически: we call into question the claim that LLMs possess emergent abilities, by which we specifically mean sharp and unpredictable changes in model outputs as a function of model scale on specific tasks. Это утверждение сильно отличается от понимания эмерджентности физиками, а дальше они ставят вопрос о метриках — понятно, что резиновыми линейками можно намерить или не намерить что угодно, вопрос не к эмерджентности у них, а к статистике и бенчмаркам. То есть у них вопросы по линии революции причинности: что и как там надо замерять, чтобы уверенно рассуждать о причинах и следствиях в условиях неопределённости.

Если начинать искать литературу на эту тему, то вот разбор Григорием Сапуновым статьи “Emergent Abilities of Large Language Models” Telegram: View @gonzo_ML — в работе 2304.15004 специфически критикуется выбор метрик и датасет из той работы.

Если же говорить о том, что математики занимаются эмерджентностью, то надо всё-таки приходить к системному её пониманию — там должно быть как минимум обсуждение двух структур, то есть целевой системы и окружения. Там много онтологических нюансов, но укажу на, например, такую работу по эмерджентности появления случайных структур в сетях — Elegant Six-Page Proof Reveals the Emergence of Random Structure | Quanta Magazine. Там тоже эмерджентность понимается как “появление свойства при росте размера”, но хотя бы речь идёт о резком росте вероятности получения каких-то свойств графов при росте их размеров. Это уже проще связать с получением каких-то наложенных/виртуальных подсеток как неоднородностей в большой однородной нейронной сети.

Ещё один мой пойнт в том, что эмерджентность (новые свойства) возникают каждый раз, когда мы занимаемся архитектурной работой над нейросетками: когда складываем нейроны в нейросетку, когда складываем нейросетки между собой (MoE), когда делаем фреймворк для program of thoughts.

Разговор о том, что “сетка не демонстрировала ToM, а сейчас демонстрирует просто от роста размера” при этом всё-таки неверен идеологически и сразу приведёт к логическим заблуждениям/misconceptions, которые тут всплыли в разговоре не только от кривого чтения статей, но и от непонимания, в чём суть эмерджентности. Нет свойства, появляющегося у системы с ростом размера как эмерджентности — это просто математики используют такое определение, у слова другое словарное значение. Эмерджентность — это явление, при котором свойство осмысленно замерять на более высоком системном уровне, чем нижележащих. Скажем, у функции активации никакой ToM нет, а у ANN с использованием этой функции уже можно пытаться обнаружить это свойство (и далее до хрипоты спорить — правильно замеряем, или это статистический морок, или надо брать другую метрику, или вообще этого ToM нет и нельзя замерять). А как назвать феномен, когда мы ставим фреймворк, где LLM будет только подсистемой (скажем, задействуя идею правильного промптинга), и там может это свойство тоже проявляться, но с другими значениями. Скажем, мы ставим механические часы в большую камеру с изоляцией механической и температурной от влияния окружающей среды – и там время показывается с большей точностью. Но свойство показа времени уже эмерджентно появилось в часах – его не было в шестерёнках, вот это и есть “эмерджентность”, в отличие от синергии – если взять часы и изолирующую камеру, то точность показа времени от их взаимодействия увеличится. “Увеличится” – это не “появилось”. Это синергия, изменение какого-то свойства (часто очень сильное) от взаимодействия систем. Конечно, это рассуждение можно проводить и с нейросетками, которые демонстрируют ToM – [2304.11490] Boosting Theory-of-Mind Performance in Large Language Models via Prompting.

Конечно, в LLM довольно много людей используют эмерджентность примерно так, как её математики используют, одноуровнево. Но это бесплодно, ибо будет порождать “спор о терминах”. Спор о терминах решается просто, ещё Шекспир сказал — “Роза пахнет розой, хоть розой назови её, хоть нет”. Спор о терминах бесперспективен. Спор о терминах появляется, когда мы решаем классификационную задачу, ибо легко можно предложить альтернативные системы классификации.

Отдельно скажу, что для классификации разных когнитивных архитектур (сегодня это чаще всего нейронные сети instruct, которые ну уж точно проявляют новые свойства, когда их оборачивают во фреймворки типа LangChain с множественными промптами, внешней памятью и т.д.) критерии отнесения к классу “интеллектуальности” плывут катастрофически:
— сначала достаточно было показывать, что там вообще что-то на уровне выше рандомного
— потом — что не хуже человека-ребёнка из школы
— сегодня идёт в зачёт только уровень лучшего человека на Земле в какой-то предметной области
— завтра (впрочем, уже сегодня), только то, чего и у людей нет, иначе “не интеллект”. То, что уже сегодня требуют отвечать на 100500 тем сразу, чего не может ни один человек в мире, не волнует: отследят и укажут, что Вася может ответить лучше тебя тут, а вон та Даша — вот тут).

UPDATE2:
Но всегда есть возможность затуманить разговор про эмерджентность тем, что поиграть шкалами. Скажем, для математической эмерджентности подогнать правильную метрику под какое-то понятие (скажем, ToM, theories of mind). Если вы выбираете “правильную метрику”, то у вас есть несколько способов это сделать:
— задать, например, не кардиналистскую шкалу, а ординалистскую. Так экономисты поступили в субъективной теории полезности. Абсолюное значение в ординалистских шкалах неизвестно, но всегда известно, что больше. Берём два товара — и всегда известно, какой из них отдельный агент ценит больше, хотя абсолютная стоимость товара неизвестна. Потом, например, можно за один из товаров взять деньги. Ну, или за оба товара взять разные деньги, разных эмитентов. И нормально все так живут, не зная абсолютных стоимостей редких благ.
— если речь идёт об интеллекте, то подобрать ординалистскую метрику, заведомо приложимую даже к молекулам, но и к людям тоже. Это сегодня мейнстрим у физиков и нейробиологов, а уж они в метриках понимают. Это примерно соответствует вашему высказыванию. Никакой эмерджентности при этом нет, интеллект молекулы (что бы там ни было интеллектом) меньше интеллекта калькулятора, интеллект калькулятора меньше интеллекта кошки, интеллект кошки меньше интеллекта человека, интеллект человека меньше интеллекта человека с ручкой и бумажкой, интеллект человека с ручкой и бумажкой меньше интеллекта человека с гуглём и софтом для заметок, интеллект такого человека меньше чем интеллект команды таких людей (хотя иногда и наоборот, смотря как организовано коллективное мышление в команде, вопрос к методам организации коллективного мышления). В этом плане можно ToM замерять и у молекулы, просто результат будет нулевой, но вот уже у таракана — не факт, у кошечки — ещё более вопрос, у человека — в разном возрасте разный, и т.д. Можно замерять наличие на Земле динозавров в штуках, сначала был ноль, потом “очень много”, потом опять ноль, потом “не совсем динозавры, но модели динозавров, а ещё и описания динозавров условно отнесём к динозаврам” — и глянь, опять не ноль".
— можно для интеллекта брать другие метрики, например, Levin предложил метрику вменяемости, она мне очень нравится, там тоже ординальная шкала. Механический будильник полностью невменяем, чтобы изменить его поведение, надо изменить его конструкцию, он необучаем. Кошка более вменяема, её можно, например, надрессировать — долго, плохо, тем не менее. Человек более вменяем, если ему что-то сказать, то он может провести рассуждение и поменять своё поведение. Некоторые люди ещё более вменяемы, они производят рациональное рассуждение и меняют поведение даже там, где тупой человек проигнорирует обращённый к нему промпт. В LLM тут берут две метрики по этой линии: helpfulness и harmlessness.

Это всё про измерения и метрики, там своя история.

Отдельно обсуждаем понятие эмерджентности: у него есть несколько словарных значений:
— у математиков это резкий скачок по какой-то шкале (например, вероятность нахождения какой-то структуры в рандомном графе) при росте какой-то другой характеристики (например, размера графа).
— в системном мышлении — это смена типа шкал при переходе к обсуждению вложенных (по отношению композиции/“часть-целое”) объектов другого размера. Нет смены типа шкалы — нет эмерджентности. И критерий — деятельностный, “зачем нам надо вообще это замерять у объектов этого размера”, при этом границы систем — договорные (но стараются, конечно, следовать при этом каким-то естественным границам устойчивости физических объектов, как при разметке границ на земле стараются проводить их по рекам, хребтам и прочим привязанным к особенностям рельефа местам, а не совсем уж произвольно. Но часто — где удобней по каким-то совсем другим соображениям, иногда госграницу проводят по улице посреди деревни, в Европе такого полно).

Дальше можно произвольно тасовать эти утверждения. Например, говорить “нет эмерджентности” и “есть эмерджентность”, не уточняя — математическая она, или системная. Или говорить о какой-то шкале, не отмечая, ординалистская она или кардиналистская. Или для нейросеток произвольным образом чередовать упоминание математической эмерджентности (резкий скачок в значении метрики по какой-то шкале при росте размера сетки) или системной классической эмерджентности (рассматривать нейросеть в целом, и там внутри подсети, кластеры нейронов или какие-то другие структуры как её части — для эмерджентности нужно минимум два системных уровня, если двух системных уровней нет, то само понятие неприменимо, а не “нету”. Всё-таки значение “ноль”, “значения нет” и “нет даже переменной, поэтому даже нельзя сказать, что значения нет” — это разное, этому программистов должны учить).

У меня тут два совета:
— сначала идти на курс “Моделирование и собранность” (Aisystant). Это, пожалуй, единственный у нас на планете публично доступный курс онтологии. Там разбирают моделирование, то есть как мы описываем мир. А в части собранности учат доделывать дела до конца (скажем, дочитывать тексты статей до конца, а не до первого попавшегося момента. Скажем, большинство читателей у меня в блоге дослушали лекцию по foundation models только до того момента, когда лектор цитировал чужую работу с переоткрытием уже известных законов. И, конечно, основной тезис лекции даже не услышали, собранности не хватило дослушать до конца — ну, или почитать оригинальные папиры, по которым это всё рассказывалось).
— дальше курс “Системное мышление” (Aisystant), но после “Моделирования и собранности” уже будет внимание к типам, чтобы понимать там написанное. Скажем, чтобы термин и понятие не путались. И в этом курсе будет рассказано про эмерджентность и даже приведено её отличие от синергии (их всегда путают. Синергия — это когда от взаимодействия двух систем какое-то полезное свойство на уже используемой шкале резко растёт, но новых шкал не вводится. В случае ToM это даже не синергия, потому как нет второй добавленной системы, хотя и не меняем шкалу, да и рост не резкий).

Дальше может быть вопрос про наблюдение эмерджентности. Вообще-то в физике давно нет “наблюдателя”, но есть “измерение” (вполне себе активное действие). Результат измерения — информация, которая показывает, изменилось ли что-то при взаимодействии системы-измерителя/instrument, или не изменилось. “Да” или “нет” — это мельчайшее различение, результат сравнения предыдущего состояния измерителя и после замера.

Там дальше идёт раздвоение на информацию (можно замерить, можно откопировать результат дальше без разрушения состояния) и суперинформацию (можно замерить, но без разрушения состояния нельзя передать дальше — это квантовая информация). Информацию меряют в битах, суперинформацию — в кубитах.

Как “на пальцах” объяснить эту новую модель мира, которую несут нам квантовые физики? Основная идея в том, что нам не надо о мире знать точно. Мир надо квантовать/дискретизировать по части знания о мире. Насколько? Настолько, что в результате измерения получать для какой-то части мира 0 или 1, бит информации. Это могут быть два разных места в пространстве-времени, но фишка в том, что если они ближе, то мы не получим больше информации, мы сейчас их не сможем различить. Считайте, что это что-то типа частоты дискретизации в аудио (отсчёты) или разрешения матрицы в видео (пиксели). Вот тут численные оценки [2112.15242] A free energy principle for generic quantum systems – 2.1 What is “quantum”? When physical interaction is viewed as information exchange, why it is “quantum” becomes obvious: the fundamental quantum of information is one bit, one unit of entropy, that one system exchanges with another. One bit, one quantum of information, is the answer to one yes/no question. Planck’s quantum of action ћ is then naturally regarded as the action (energy · time) required to obtain one bit via any physical interaction. The energy required to irreversibly obtain one bit, i.e., to receive and irreversibly record one bit, is given by Landauer’s Principle as ln 2 kBT , with kB Boltzmann’s constant and T temperature [49, 50, 51]. The (minimum) time to irreversibly obtain one bit is then ћ/ln 2 kBT , roughly 30 fs at 310 K. For comparison, the thermal dissipation time (in 3d space) due to timeenergy uncertainty is πћ/2ln 2 kBT [52], roughly 50 fs at 310 K. These values define a minimal timescale for biologically-relevant, irreversible information processing, roughly the timescale of molecular-bond vibrational modes [53] and an order of magnitude shorter than photon-capture timescales [54]. Теперь давайте вот эту идею перенесём на многомерное пространство понятий, типа тех, что используются в нейросетях – каждая буква, каждое слово, каждая фраза и т.д. представлено там каким-то многомерным вектором. Это ж дикие вычисления в таких пространствах, если воспринимать их непрерывными. Поэтому их квантуют/дискретизируют, это называют grid/решётка. И в точках этого пространства представляют что угодно – события, понятия, объекты. Обычно это всё лежит между теми точками самой решётки, которые мы отображаем символами (да, символические вычисления как раз про это), но как-то “резонирует” с узлами этой решётки, которые мы отслеживаем в наших вычислениях. Физики такую операцию дискретизации делают рекурсивно, называют это renormalization group (решётки внутри решёток внутри решёток). Но в принципе, все такие вычисления по дискретным представлениям чего-то непрерывного – они квантовоподобны, можно применять математику примерно ту, что в квантовой физике. И это экономит вычисления, вы вычисляете не всё, а только то, что находится в точках дискретизации. Бесконечность сводишь к редким дискретам. Вычисления, требующие огромной вычислительной мощности для приближения к бесконечной точности, становятся линейными – а точность определяется точностью дискретизации (“гонка мегапикселей” в фотоаппаратах ведь как раз про это, но начиная с какого-то момента “всё всех устраивает, больше и дороже не надо”). Биология пошла вся по этому пути. Это читать в Quantum-like modeling in biology with open quantum systems and instruments - ScienceDirect, там 8.4.

Linearity of quantum representation: exponential speed up for biological functioning и ещё в https://www.frontiersin.org/articles/10.3389/fnbot.2022.910161/full. Больше материалов в тексте Towards a Third-Generation Systems Ontology: ailev — ЖЖ на английском и К онтологии системного подхода третьего поколения: ailev — ЖЖ на русском (это один и тот же текст, а литература к нему вся на английском, по факту это раздел 12 курса “Системное мышление” с краткой онтикой системного мышления третьего поколения).

Эпистемологию трудно рассказывать в режиме комментов или даже постов в блоге, нужно прохождение курсов. Прежде всего это курс “Интеллект-стек”, Aisystant.

Там ещё вопрос "существует ли эмерджентность как свойство физического мира, или это понятие, абстрактный объект, который придумали человеки, и где-нибудь до 18 века эмерджентности не было даже в физике, да и в математике, а где-нибудь после 21 века опять не будет, ни в физике, ни в математике. Краткий ответ: да, так. Существует ли сила притяжения “на самом деле”? Ответ — нет, конечно. До Ньютона не было никакой силы притяжения, после Ньютона была сила притяжения между массивными объектами, после Эйнштейна силы притяжения нет, но есть искривление пространства, но это только на макромасштабах (а на микромасштабах искривления пространства у масс нет, там понятия квантовой физики работают). В этом месте всё немного сложно, но в целом ответ такой, что наши лучшие догадки мы принимаем всерьёз — и действуем в мире так, как будто это и есть “на самом деле”. Лучшие тексты на эту тему — книжки Deutsch, они переведены на русский язык. Да, это тот Дойч, который в 1985 году предложил идею квантового компьютера. Потом её приняли всерьёз, и сейчас квантовые компьютеры есть и потихоньку развиваются.

Мой тезис в том, что эпистемологии, онтологии, семантике и прочим неаппетитным дисциплинам надо учить ещё в школе. А то потом невозможно обсуждать тот самый вопрос “вы знаете, что мир устроен так-то и так-то, но как вы это знаете? Каким методом вы это получили? Как проверяли? Что с этим можно полезного сделать?”. Это всё эпистемологические вопросы, а эпистемологии не учили. Как не учили, например, и нормальной этике — вместо неё кучу времени потратили на изучение художественной литературы, где учителя литературы используют выдуманные сюжеты для того, чтобы учить деток квазиэтике, причём прошлых веков.

Ужас в том, что LLM ровно такие же! Поэтому я без управления конфигурацией знаний (чтобы брались более-менее современные теории, а не теории типа теории флогистона или какой-нибудь психоаналитики или “трёх законов робототехники” от писателя-фантаста) не очень понимаю, как разговаривать с нейросетками. Да, включая разговоры с LLM в головах людей.

Моя идея такова, что надо учить эпистемологии и ещё ряду дисциплин всех, до кого дотянешься — и сухие, и мокрые нейросетки. Вот, пока работаем со взрослыми мокрыми нейросетками (у детей ОГЭ и ЕГЭ, им некогда!) и ведём вялые эксперименты с LLM в Aisystant (сейчас там GPT4o с RAG по материалам наших курсов. Результаты — ну, так себе).

r-yudichev · 29.Май.2024 08:10:54

ailev:

При этом глубокая нейросеть настолько хороший строительный материал, что появляется возможность не только делать эффективные подсети в большой сети (а потом отжимать из большой нейросетки эту маленькую подсетку, которая всё и делает – “дистиллировать”), но и путём очень продолжительного обучения улучшать качество алгоритмов, реализованных нейросетью – эффект “грокинга” (в Telegram: Contact @seeallochnaya автор пишет о грокинге: «даже если у нас нет новых данных после GPT-5, и даже если мы не будем увеличивать модели дальше, то просто обучая их не по 3 месяца, а по 2-3 года, мы будем получать очень заметные улучшения».

Эффект “плато в обучении” у кремниевых нейроагентов во всей своей красе. Как мы похожи))

ailev · 29.Май.2024 08:20:24

Конечно, похожи. В голове нейросеть, в компьютере тоже нейросеть, есть теоремы, которые показывают изоморфность нейроморфных и запрограммированных нейросетей, даже компиляторы такие делали. ))) Принципы, тем не менее общие. Это, конечно, трудно сводить одно к другому, ибо эффекты на низком системном уровне, но общий паттерн налицо.