Интересна даже не сама нобелевка по физике 2024 (https://www.nobelprize.org/prizes/physics/2024/press-release/), а интересна общественная реакция людей из тусовки ML. У них там основной вопрос – причём там физика, почему не хотя бы нейробиология (про computer science вопросов нет, ибо там аналог нобелевки уже выдали в 2018 – премию Тьюринга, за алгоритмические прорывы).
Как я понял, большинство нынешних людей из тусовки ML пришли в эту тусовку уже после моды на GAN (кембрийский взрыв был с 2014) и дальше Transformer (ещё один кембрийский взрыв с 2017). Для них “в начале был Шмитхубер, а ещё раньше указанные им умельцы, решавшие проблему backpropagation. И это математика, а не физика”. Ну, или ожидалось, что исследователи мозга, которые взяли идеи спайковых сетей и как-то их реализовали — все рассуждения там по этой линии. Но чтобы физики и спиновые стёкла с Больцманом, да ещё физики признали это прорывом на нобелевку?! Да ни в жизнь!
Надо просто смотреть в более ранние времена, что там произошло ещё в 80х годах, что позволило выдать нобелевку прямо сейчас. Я сам заметил прорыв в нейросетях ещё с AlexNet, 2012 году (вот мой первый пост о глубоком обучении, там ссылки на литературу – Глубокое обучение (deep learning): ailev — LiveJournal, вот об обучении представлениям – Обучение представлениям (representation learning): ailev — LiveJournal) и хорошо помню, что писалось в самых первых работах по сетям. Там, как ни странно, было много физики – и математика там была как раз взята из физики.
Вот мой пост по физике в глубоком обучении, и даже не просто физике, а физике эволюции, 2015 год, читается очень свежо и там как раз много слов, пересекающихся со словами физиков, присуждавших нобелевку по нейросетям в 2024 году, и там даже Хопфилд упомянут, которого нынешние исследователи ML вообще не помнят: “Физика процессов эволюции и deep learning”, Физика процессов эволюции и deep learning: ailev — LiveJournal Там первая же фраза: “Глубокое обучение, как становится очевидным, эксплуатирует физику процессов эволюции – ту же самую, что рулит установлением равновесия в спиновых стёклах и рулит сворачиванием белков в четвертичную структуру”. И дальше подробненько с литературой.
Эта моя фраза из 2015 года иллюстрируется и буквально сегодняшними событиями:
– пять дней назад вышла работа [2410.02543] Diffusion Models are Evolutionary Algorithms, In a convergence of machine learning and biology, we reveal that diffusion models are evolutionary algorithms. By considering evolution as a denoising process and reversed evolution as diffusion, we mathematically demonstrate that diffusion models inherently perform evolutionary algorithms, naturally encompassing selection, mutation, and reproductive isolation. This parallel between diffusion and evolution not only bridges two different fields but also opens new avenues for mutual enhancement, raising questions about open-ended evolution and potentially utilizing non-Gaussian or discrete diffusion models in the context of Diffusion Evolution. Конечно, там оказывается, что предлагаемые нейросетевые алгоритмы обыгрывают нынешние мейнстримные эволюционные алгоритмы.
– про белки тоже интересно: нобелевка по химии 2024 как раз в том числе за AlphaFold, вторая нейросетевая нобелевка этого года: https://www.nobelprize.org/prizes/chemistry/2024/press-release/. Но это менее интересно: использование уже понятно каких алгоритмов для решения тех самых задач свёртывания белков, о которых было известно 50 лет и о которых я упоминал, когда говорил о физике процессов эволюции, которая рулит сворачиванием белков в четвертичную структуру.
Вот это и есть проблема: непонимание связи физики и математики. Это не понимают часто и выпускники физических и математических факультетов (скажем, выпускники из МФТИ, я проверял). Если им свезло иметь некоторую совместную жизнь с крутыми физиками и математиками, то они это понимают, а если не свезло – то изучение отдельных разделов физики и математики и даже исследования в этих разделах не дает представления о том, чем же занимаются физики и математики и как они взаимодействуют. Я сам потратил некоторое время на эту тему, результаты отразил в курсе “Интеллект-стек” (Aisystant, есть и книга Интеллект-стек 2023 - купить книгу в интернет магазине, автор Анатолий Левенчук - Ridero). Проверял: выпускники физических и математических факультетов хором говорили, что там в разделах физики, математики, алгоритмики изложен материал, которого в родных вузах не давали.
В работах по deep learning использовался математический аппарат, который был задействован физиками для описания поведения неэргодических систем (даже сами физики плохо помнят, что это такое – тоже проверялось. Это системы с памятью, а аппарат нужен был, чтобы описывать такие системы с использованием статистических методов). Но как вообще брать математику спиновых стёкол из физики и тащить её “назад в математику” и далее в computer sciense как алгоритм? Скажем, в тексте 2022 года “Маржинальная революция, деятельностное рассуждение и квантовоподобность. Ещё литература”, Маржинальная революция, деятельностное рассуждение и квантовоподобность. Ещё литература.: ailev — LiveJournal, я писал про постепенное понимание того, как именно связаны физика и математика в подобного сорта исследованиях. Помним, что в математике ищут “оптимум”, а в физике – “минимум свободной энергии”. А дальше хитро: в ходе байесианской революции в статистике появилось два разных варианта свободной энергии (The two kinds of free energy and the Bayesian revolution, 2020, The two kinds of free energy and the Bayesian revolution):
– free energy from constraints (appears when trading off accuracy and uncertainty based on a general maximum entropy principle). The maximum entropy principle goes back to the principle of insufficient reason [49–51], which states that two events should be assigned the same probability if there is no reason to think otherwise. It has been hailed as a principled method to determine prior distributions and to incorporate novel information into existing probabilistic knowledge. In fact, Bayesian inference can be cast in terms of relative entropy minimization with constraints given by the available information [52].
– variational free energy (There is another, distinct appearance of the term “free energy” outside of physics, which is a priori not motivated from a trade-off between an energy and entropy term, but from possible efficiency gains when representing Bayes’ rule in terms of an optimization problem. This technique is mainly used in variational Bayesian inference [55], originally introduced by Hinton and van Camp [42]). И вот active inference идёт из этого второго понимания.
Мы помним, что free energy по термодинамической (физической) и по Shannon (информационной) линии строго различал двадцать лет назад ещё Jaynes и тоже просил их не путать, но их сегодня таки активно связывают (например, Entropy, Shannon’s Measure of Information and Boltzmann’s H-Theorem – We start with a clear distinction between Shannon’s Measure of Information (SMI) and the Thermodynamic Entropy. The first is defined on any probability distribution; and therefore it is a very general concept. On the other hand Entropy is defined on a very special set of distributions. Next we show that the Shannon Measure of Information (SMI) provides a solid and quantitative basis for the interpretation of the thermodynamic entropy. The entropy measures the uncertainty in the distribution of the locations and momenta of all the particles; as well as two corrections due to the uncertainty principle and the indistinguishability of the particles. Finally we show that the H-function as defined by Boltzmann is an SMI but not entropy. Therefore; much of what has been written on the H-theorem is irrelevant to entropy and the Second Law of Thermodynamics. И таких работ множество).
Абсолютно неудивительно, что все эти понимания тесно переплетены и нещадно путаются: математика (и физика!) под этими разными пониманиями не самая простая, ибо это приложения вариационного исчисления (кратенький русскоязычный односеместровый учебник для справки что это такое: http://library.voenmeh.ru/jirbis2/files/materials/math/math_new/eos/elr01541.pdf – “Интегральный функционал, его дифференциал, или вариация, его стационарная точка и точка экстремума суть исходные понятия вариационного исчисления. Термин «функционал» обычно применяется для наименования отображений, принимающих, так же как и функции, числовые значения. В вариационном исчислении его применяют потому, что термин функция занят для обозначения аргументов функционала”. И дальше 58 страниц про составление и решение интегральных и дифференциальных уравнений, посвящённых нахождению этих самых экстремумов интегральных функционалов). Вариационное исчисление – это и active inference, и оно же в GAN-AE-VAE (та самая мода 2014 года).
Сейчас про свободную энергию и energy nets продолжает говорить разве что ЛеКун, остальные как-то этот вопрос подзабыли, но ведь ещё не вечер.
Я по линии физики, эволюции и нейронных сетей продолжаю потихоньку следить за работами группы Ванчурина – Vitaly Vanchurin - Google Scholar, там работы где-то 2020 как раз по этому вопросу. Ещё, конечно, работы Levine, Fields, Friston – там тоже много про эволюцию и свободную энергию, но много меньше про нейронные сети.
Тут ещё и коммент Кацнельсона, который как раз с Ванчуриным работал над этими вопросами физики, биологии, эволюции (Mikhail Katsnelson): “Меня попросили прокомментировать нобелевскую премию по физике (видимо, не столько нобелевскую премию саму по себе, сколько сопровождающий шум). Однако, почитавши ленту, я впал в полную растерянность. Как комментировать всеобщее убеждение, что воробей не птица, а Марс не планета? Читать полный курс зоологии (в первом случае) или астрономии (во втором)? Мы так не договаривались. Если «все» говорят, что машинное обучение - не физика, возникает вопрос, а что «они» понимают под физикой”.
Это ровно то, что и я говорю: только не что «они» понимают под физикой (спор о терминах, “правда ли, что X классифицируется как Y”, это бесперспективно и непродуктивно спорить о терминах), а знают ли люди, что там за физическое мышление, математическое мышление, вычислительное мышление – или чем занимаются физики, математики, компьютерщики? То есть мой вопрос про образование: как комментировать отсутствие образования?! Кацнельсону обидно за физику, а ведь вопрос про весь интеллект-стек – там же такие же дыры по семантике, онтологии и всем другим предметам интеллект-стека. Как разговаривать с дикарями из джунглей?!
Кацнельсон говорит, что “Возможно, и разговоры «это не физика» тоже с какой-то точки зрения нормальные, но я лично их понять не способен”. – вот вот проблема не в нобелевке, не в нейронных сетях, а в образовании, культуре – где огромное число людей, учивших в школе и в университете физику, оказываются не способными понять, где там физика в физике! Проблема не в физике, проблема культуры (культура – это одно из многих имён метода, означает, что метод знаком большому числу народа, культура – это метод, которому следуют в каком-то сообществе).
Для меня мораль этой истории со смешанной реакцией на эту нобелевку – это с одной стороны знаниевый (в посте больше про это), но и культурный:
– социальная эпистемология: там один из важных вопросов – это credits, дань уважения авторов, ибо есть теория, которая чётко говорит, что учёные отнюдь не все работают “на истину”, у многих мотив – тот самый credit. Нобелевка тут – одна из форм высказывания уважения авторам идей, и вдруг оказывается, что люди, считающие какую-то предметную область “своей” вообще не понимают, кому, почему и за что там оказано такое уважение. Почему физика? Почему Хопфилд? Какие такие машины Больцмана в нейросетях, это ж физика?! Вот такие, кстати, Boltzmann machine - Wikipedia. Дальше можно изучать “справедливость” по мнению разных тусовок, границы между тусовками, как так вышло исторически и т.д.
– культура (методы) самой предметной области ML, где постоянно проговаривается, что “мы плохо понимаем фундаментальные основы машинного обучения”, но разговора о том, что такое “фундаментальные основы” (скажем, физика, ибо всё остальное – коллекционирование марок) нет, там художественные рассуждения. Впрочем, нет рассуждений и на тему что такое “понимаем” – ибо это не математика, не физика, не computer science, а онтология, эпистемология, методология. Получается, что исследователи ML есть, но они “от сохи исследователи”, но не культурны. Кулибины-изобретатели, ага, причём они умны и их много. Но не культурны в эээ… смысле культуры, ибо культура чаще всего в этом смысле слова – это знание каких-то мета-уровней (скажем, в исследованиях культура – это не знание предметной области того, что исследуем, онтологии этой предметной области, но знание предметной области исследований, эпистемология и методология – как там устроено заземление онтик и как там устроено якорение онтик).
– опять поднимается вопрос о фундаментальном образовании. У меня до сих пор разделы в “Интеллект-стеке” написаны, а курсов математики-физики нет. Пока всё настроено на программы оргразвития, но да ещё не вечер.
Так что пошёл заниматься сообществами дальше, а этот кейс даже не с нобелевкой а всеобщим непониманием, что такое физика – запомним.
А любители машинного обучения – помните RBM? Быстро без Гугла: BM – машина Больцмана, а вот R – это recurrent, renormalized, restricted, recursive, recognizing? Ссылка на статью в википедии как раз в предыдущем абзаце. При этом я понимаю, что в жизни это знание уже не пригодится, но всего лет десять назад это был огонь-огонь.