У меня довольно много в курсах (“Инженерия личности” и “Интеллект-стек”) развивается пара мыслей:
– обучение состоит из двух частей: общая картина мира (интеллект-стек, лучшие известные нам методы мышления), затем частная картина предметной области (грубо говоря, сначала методам работы с абстрактностью уровня мета-мета-модели, “общие абстрации, трансдисциплинарные понятия, foundational and upper ontology”, а затем с абстрактностью уровнем пониже, методы работы с понятиями мета-модели, “предметные дисциплины какой-то одной предметной области”). В нейросетях это – train/prelearning/обучение и finetune/“настройка на предметную область” (например, в Aisystant).
– когда выпускник приходит в новый проект со знанием мета-мета-модели, то он ориентируется в незнакомой ситуации много быстрее, чем без такого обучения. И учится каким-то методам предметной области он тоже быстрее.
Дальше мы потихоньку учим стеку методов мышления:
– методы фундаментального мышления интеллект-стека (по факту – методы научного мышления, включая системное мышление, методологию на верхних уровнях этого стека)
– кругозоры инженерных практик (системная инженерия, инженерия личности, системный менеджмент как инженерия организаций)
– какие-то прикладные практики, которые в данный момент опираются на литературу, которую даём в кругозорных курсах. Так, если изучить литературу в курсе “Системный менеджмент”, то можно претендовать на объём знаний уж не меньше, чем в типичной программе MBA, и уж тем более в executive MBA.
Лекция Miles Cranmer The Next Great Scientific Theory is Hiding Inside a Neural Network (The Next Great Scientific Theory is Hiding Inside a Neural Network, была 3 апреля 2024) содержит очень похожие мысли, предполагающие наличие в нейросетях уровня мета-мета-модели и предметных уровней мета-модели и далее моделей конкретных ситуаций. Интересно, что лекция поминает symbolic discovery, но основной тезис лекции в другом. Лекция утверждает несколько неочевидных вещей:
– впрямую декларируется многоуровневая онтологическая организация научного (science, точные науки) знания в терминах трансдисциплинарного знания. Самые общие (абстрактные/универсальные) понятия – это измерение, причинность, моделирование. Менее универсальные знания по той же физике – законы сохранения, теория хаоса, многомасштабная динамика. Малоуниверсальное, то есть прикладное знание, которое использует всё вышеперечисленное для своего выражения – это, например, знание о методах замыкания уравнений моделирования турбулентности (turbulence closure modeling). Налицо уровни стека знаний: общее мышление о мире, специфически физическое мышление (в отличие от специфически лингвистического мышления про языки, например, знание грамматики), а далее прикладное мышление раздела физики с соответствующими способами его математического выражения. Конечно, “языком физики” объявляется математика (всё, как описано в “Интеллект-стеке”).
Дальше делается несколько интересных заявлений о планирующейся работе (краткое изложение материала можно найти в https://polymathic-ai.org/ за октябрь 2023):
– мы будем использовать нейросетку как универсальный аппроксиматор “физической модели мира”.
– дальше поступим так же, как с LLM: дадим большой сетке (сотни GPU и пару месяцев счёта, то есть сравнимо с LLM и по компьюту) поглядеть на физический мир перед тем, как будем задавать сетке вопросы. На мир смотреть просто: накормим сеть датасетами из множества симуляторов, основанных на описаниях разных видов физических систем, данных в дифурах. Главное, чтобы сетка “посмотрела” на поведение множества самых разных физических систем и их поведение. Например, сетка должна поглядеть на самые разные “волны” – чтобы уразуметь в своём латентном пространстве “понятие волны”. Ну, и так далее, чем разнообразней и больше, тем лучше, те же принципы, что в LLM. Там много интересного, например, эффективная токенизация реальных чисел для подобных экспериментов ([2310.02989] xVal: A Continuous Number Encoding for Large Language Models). Идея в том, что “научная LLM, познавшая множество одиночных физик” затем сможет быстро разобраться со сложными закономерностями, включающими множество физик. Идея примерно та же, что “если выучить нейросетку описаниям мира на английском и на французском, и ещё на сотне языков, то она познает какие-то закономерности о мире, и задача перевода будет выполняться потом проще – это будет просто два описания одного и того же мира, выраженного на двух языках”. Ожидается, что таким образом обученная сетка будет хранить какую-то “модель физики в целом”, общие закономерности физического мира.
– дальше эти предобученные нейросетки используются для решения задач предсказания реальных физических многомерных данных каких-то экспериментов.
Результаты удивительны:
– если брать предобученную сетку “научной large language/foundation model” и дальше файнтьюнить на данных какого-то эксперимента, то такая сетка бьёт все рекорды по точности и скорости доучивания до высокой точности. Если ты что-то понимаешь в “как устроена физика”, то частный случай – это просто “частный случай”.
– если брать не предобученную “на дифурах”, а просто рандомно инициализированную нейросетку и учить на данных экспериментов “с нуля”, как “аппроксиматор общего вида” то ошибка за сравнимое число итераций будет чудовищной.
– если брать нейросеть, предобученную на видео котиков, то результаты всё равно лучше рандомной инициализации (без предобучения), но хуже предобученного на физических данных варианта. Гипотеза: нейросетка выучивает из видео котиков какие-то пространственно-временные отношения, лежащие в основе физической картины мира. То есть нейросетка, которая просто “одним глазком” взглянула на физический мир, хотя бы на котиков, и тем самым имеет inductive bias в сторону “картины мира” уже дальше учится каким-то “физикам” (поведению каких-то классов физических систем) быстрее, чем нейросетка, которая заведомо не имеет никаких других знаний, кроме знаний о том, как учиться, зашитых в своей структуре (innate priors)!
Там дальше много интересностей. Например, как интерпретировать данные таких экспериментов? Как получить “простые” обяснения? Делается контринтуитивный вывод, что “простота” зависит от частоты встречаемости, а частота встречаемости – от “полезности”. Скажем, идея 1+1 – очень абстрактная и ни разу не понятная, не простая. Но счёт очень важный, оператор сложения используется часто – и поэтому кажется знакомым. Как на мехмате любили говорить, “студент не понимает, не понимает, а потом привыкает”. Простота даётся повторением полезного, привыканием. У нас в курсах используется для контринтуитивных идей ровно такой же подход: идея разъясняется, а потом просто даются много примеров полезности и рекомендация использовать в проектах. После некоторого тренинга (сводящегося к напоминанию о том, что идею надо использовать) студент “привыкает”, и идея кажется простой. В курсе мы это вслед за Peter Senge называем “метанойя” (Aisystant, Aisystant).
В любом случае, вопрос крутится вокруг того, как сжать многомерную информацию о физическом мире в более простые представления. Для меня это продолжение линии на компактификацию знания, нахождения паттернов, причём схема тут даётся двухуровневая:
– паттерны “картины мира” ухватываются нейросеткой в распределённом представлении, за счёт аппроксимации (сетка – универсальный аппроксиматор)
– далее идёт означкование паттернов в какой-то знаковой системе, тут предлагаются symbolic discovery (например, генетические алгоритмы), транслирующие эти “интуиции нежити” в знаковые представления выбранного языка.
Конечно, там миллион разных оговорок. Например, надо ли транслировать в ODE, или таки в DAE (см. подробности в Цифровые двойники: физика ведёт математику, математика ведёт компьютерную науку: ailev — LiveJournal). Или вообще сразу использовать “нейросуррогаты” для ускорения вычислений по примеру JuliaSim (четвёртый абзац в lytdybr: ailev — LiveJournal).
Ещё для меня это сильно пересекается с Шмитхуберовскими теориями любопытства и интереса, там ведь тоже “сжатие и предсказание”, равно как с исследованиями по ритмике “интересных ритмов” Godfried T.Toussaint – и по этой линии “паттернирование и сжатие как переход к символам, в пределе – навешивание смысла на биты, сиречь цифровизация/информатизация” там довольно много интересного всплывает.
Вся эта линейка размышлений о foundation models и связанных с ними уровнях абстракции и степенях формальности (важно для порождения и нахождения аналогий в нейросетках, например, неформальное кодирование мира в LLM, распределённые представления, а дискретизация/цифровизация важна для критики, без критики нет эволюции) и уровнях абстракции (онтологических уровнях как иерархии генерализации знаний о мире) – это, похоже, нынешний научный мейнстрим, новое понимание эпистемологии. Значительная часть этого подхода отражена у нас в курсах, но вот там ещё не было этого захода на “чисто физическая картина мира”, “научная в смысле точных наук, science, foundation model”, отражающая какие-то глубокие закономерности.
В конце видео Cranmer отвечает на вопрос о том, не будет ли нейросетка, которой показали чуть-чуть физический мир, переоткрывать законы? На что Cranmer отвечает, что если обучать сетку одной физике с нуля, то она будет переоткрывать ровно этот закон, которому её учат. А вот если идти через показ сетке каких-то самых разных физик, то она найдёт подлежащие под этими разными “физиками” (оптикой, турбулентностью, квантовой физикой и т.д.) паттерны – и новые законы (открытия, а не повторные открытия) надо искать там. Интересно, что зрители досматривают видео обычно до того места, где Cranmer цитирует чужую работу по переоткрытию законов физики, и критикуют ровно этот заход – но не заход самого Cranmer со товарищи, простая путаница из-за клипового потребления информации не полностью, “что успел прочесть, то автор и сказал”.
А ещё удивительно, сколько всего надо знать сегодня, чтобы разобраться в эпистемологии – кроме физики и математики с выходом на классическую семантику формульных/знаковых/семиотических систем классической математики надо ещё разбираться сегодня во второй половине семантики, где рулят распределённые представления. Напомню картинку из “Системного мышления”, там она в последнем разделе:
Я же буду надо все этим думать в порядке размышлений о том, чему же учить современных людей (базовой картине мира, дать “концентрированную насмотренность”, “сжатый опыт жизни”) и как учить современных людей (всё-таки в голове у них мокрые нейросетки, и ничто нейросетевое им не чуждо).