Новое в практике познания/исследований

Раздел “Творчество” курса Интеллект-стек напирает на то, что “творец объяснений/моделей (исследователь) и творец систем (инженер) берёт начальную догадку из хаоса/шума /случайности.”

Далее, идет такой отрывок, который заодно критикует эмпирицизм/инструментализм:

Всё это похоже на «естественный отбор», эволюцию, которая тоже движется случайными мутациями, её идеи тоже берутся «из шума», «из хаоса». Поэтому такого сорта трансдисциплину познания называют иногда эволюционной эпистемологией (помним, что эпистемология — это практика научного/рационального/логичного познания), а поскольку это впервые в таком ясном виде описал Karl Popper, то это будет эволюционная эпистемология Поппера, и это же — критический рационализм Поппера, ибо догадки по поводу моделей тут противопоставляется эмпирицизму, в котором никаких догадок нет, а знание вычисляется из пассивно воспринимаемых данных измерений! В рационализме догадки первичны, а измерения могут быть использованы для критики/фальсификации/опровержения догадок о теориях/моделях (в том числе объяснений), но не для логического вывода этих моделей из каких-то данных.

Кажется, что в современной науке есть несколько направлений, которые бросают вызов этим утверждениям.

1. Bayesian model reduction как вывод объяснений из опыта/данных

По линии Active Inference, у нас есть метод Bayesian model reduction, суть которого в том, что изначально берется заведомо over-connected/overly complex модель и в процессе жизни агента и VFE minimisation она “пропалывается”, лишние переменные и связи удаляются, чтобы минимизировать complexity модели (VFE = complexity - accuracy, цель – минимизация VFE).

Этот подход “эмпиричен”, и он НЕ основан на “случайных мутациях/шуме” для вывода объяснений, но утверждается, что он является принципиальным способом создания хороших объяснений для bounded агентов.

Более того, утверждается, что этот с меньшей вероятностью приведет модель в “локальный минимум/оптимум” FE из которого будет сложно “выбраться”, чем подход “снизу вверх”, когда модель постепенно усложняется мутациями. И поэтому мозг человека (и других приматов? млекопетающих?) использует эту стратегию: в начале жизни в мозгу слишком много связей и нейронов, к врослому возрасту часть из них удаляется, но при этом интеллект становится больше приспособленным к среде.

Это же направление дает еще одну стратегию: “expand-and-shrink”, которая периодически добавляет в модель случайные переменные и связи, а потом оптимизирует модель тем же Bayesian model reduction. Хотя в данном случае все-таки появляются те самые “случайные мутации из шума”.

По поводу philosophy of science в Active Inference, в работе “The Literalist Fallacy & the Free Energy Principle: Model-building, Scientific Realism and Instrumentalism” (2022) пишут следущее:

There are at least two readings of the as if claim about minimising variational free energy in the literature. One is the claim that because target systems do not minimise variational free energy, but merely looks as if they do so, scientific realism about FEP-models is false (van Es (2020). It is this formulation of FEP-models we shall focus on here, because it is this formulation that is directly relevant to the map problem. The other reading of the as if formulation of FEP-models is consistent with scientific realism given a particular understanding of active inference in adaptive behaviour (Ramstead et al., 2019, 2020). We shall not address this second reading in detail, primarily because it does not raise the map problem - it is a set of claims about the target system*.

*footnote (доступно только тут): On the second reading of the as if formulation, the physical dynamics of a class of systems can be given an interpretation in terms of Bayesian decision theory. What is “as if” here is the ascription of agency and folk psychological states of beliefs to this class of systems. What underwrites such an ascription of agency is the interpretation of the behaviour of the system in terms of Bayesian decision theory. The physical system is “treated as though it were a rational sensorimotor agent” (McGregor 2017, p. 78). Such an interpretation of “as if” language is consistent with scientific realism. We are grateful to an anonymous reviewer for insisting on this point. To see the consistency, consider how active inference agents can be read in terms of Dennett’s (1996) reference to Popperian creatures. A Popperian creature is able to select hypotheses with the aim of pruning away inferior options to avoid fatal outcomes. In this sense, Popperian creatures have a kind of inner environment to select amongst possible actions. Popperian creatures are similar to agents described in terms of active inference, since active inference agents can infer the state of future observations on the basis of selecting possible action policies. Popperian creatures exhibit real patterns in their behaviour that can be described in terms of beliefs.

То есть, Попперианская “вытравка лучших объяснений/догадок” совместима с Active Inference планированием, да и с model selection, но не всякий “model selection” обязательно требует “догадок из шума и никак иначе”.

2. Семплинг объяснений from Bayesian posterior over causal graphs/world models

Bengio & Hu предлагают натренировать огромную inference machine, то есть generative model, которая создает причинные графы объяснений на основании прошлого опыта:

В некотором смысле, можно сказать, что объяснения в этой картинке будут взяты “из шума”, но это будет и слишком большим искажением сути. Мы все-таки не говорим, что вывод generative models - это “шум”. И generative model (Inference Machine) учится на данных, то есть, в некотором, и тут объяснения “выводятся из данных”.

Кстати, Bengio предполагает, что примерно так действует наш мозг, создавая “объяснения”/локальные причинные графы on the spot “под конкретную задачу”, а неокортекс как раз действует как Inference Machine на этой картинке.

3. Pattern mining and autopoetic/autocatalytic operation networks/loops in OpenCog Hyperon

В OpenCog Hyperon (Goertzel et al., 2023) (насколько я понимаю, но это не точно) предлагает архитектуру где как для представления знания так и для инференса используются гиперграфы, а не тензоры, как в стандартных нейросетевых архитектурах. При этом у нод есть типы, но они тоже указывают на гиперграф (все есть гиперграф, прямо как у Вольфрама).

Помимо стандартных эволюционных алгоритмов для познания (которые там тоже признаются), в OpenCog Hyperon есть еще два особых алгоритма, которые сложно назвать “шумом” или “мутациями”:

  1. Pattern mining, for creating new predicates representing observed patterns in Atomspace and other spaces (на гиперграфах, естественно) -
  2. ”Autopoietic” systems of rewrite rules that rewrite one another, thus creating autocatalytic systems of intercreating rules (an approach sometimes called ”Cogistry” in the OpenCog context [Goe22], and in some ways resembling the use
    of Replicode in the Aera cognitive architecture [TH12])

Pattern matching is a basic operation in Hyperon, and all algorithms are
represented in the form of such patterns as well. This makes Hyperon friendly
for working with algorithmic regularities, which are represented in a declarative
composable form. One particular Hyperon module is Pattern Miner, which uses
information-theoretic surprisingness criteria. Thus, while Hyperon doesn’t
insist on implementing AGI systems on top of universal induction, it facilitates
the use of elements of algorithmic information theory.

Ну вот всё это крутится вокруг smart mutations, они в [2206.08896] Evolution through Large Models описаны.

И часто ещё какое-то заблуждение, что innate priors игнорируются – то, что в аппаратуре встроено, это тоже знание, результат обучения (мутаций, запоминания, отбора). То есть эволюция всегда “на базе чего-то”, не с нуля.

Я согласен в отношении второго пункта: весь этот причинный граф, сгенерированный inference machine (GFlowNet), можно обсуждать как одну большую “мутацию”.

Но в случае с Bayesian model reduction и pattern mining / rewrite systems применение слова “мутация” уж совсем сбивает с толку: ведь мы говорим о конкретном алгоритме выбора того, что поменять в модели (например, конкретный алгоритм выбора, какую переменную или связь удалить). Поэтому это “изменение по алгоритму”, а не “мутация”. Мутация предполагает некую слепоту.

И критика упора на “невыводимость мутаций из данных” в тексте учебника остается, как минимум те же Bayesian model reduction и pattern mining являются результатом алгоритмической обработки каких-то данных на том же временном/эволюционном масштабе (то есть, вы не можете эту обработку “увести” в innate priors в обсуждении).