Австрийская экономика и Active Inference

Читаю книгу “Austrian Economics Re-examined”. Пока абсолютно ничего удивительного не встречаю, все главные идеи австрийской экономики (subjectivity of value, uncertainty, time preference, causality, entrepreneurial expectations, intertemporal plan coordination), воспринимается как абсолютный common sense. Возможно, это из-за прохождения метанойи с Active Inference, где все эти идеи почти очевидны что кажется излишне об этом даже упоминать:

  • Subjectivity of value: в Active Inference, ultimate value (и loss функция для обучения generative model) - это free energy, она по определению зависит от generative model, то есть, субъективна. Ценность информации или ресурса (приобритение ресурса может рассматриваться как “приобритение информации о том, что теперь я владею этим ресурсом”) может быть оценена как дельта GFE (= VFE + EFE) до и после получения данной информации.
  • Uncertainty: в Active Inference моделях, все убеждения - вероятностные, и в реальном мире, это никогда не абсолютно “точная” вероятность. Важное дополнение - никакой агент не может иметь точной модели самого себя (это следствие теоремы о неполноте Геделя, см. тут), и поэтому не всегда точно предсказать свои собственные следующие действия в любых ситуациях. Следовательно, в strange particles/things, которые еще и не могут обозревать свои действия напрямую, а только опосредованно через сенсоры, собственные действия всегда увеличивают VFE.
  • Time preference: pragmatic value зависит от дисперсии/variance предпочтений на какой-то момент в будущем, дисперсия растет тем больше чем дальше момент во времени,
  • Causality: generative model with time variable + agentic loop дают причинность в Active Inference (см. “A model of agential learning using Active Inference”, работа 2023 года)
  • Entrepreneurial expectations: агент выбирает свое действие (action) и план (policy) исходя из своих ожиданий по expected free energy ассоциированной с тем или иным действием или планом.
  • Intertemporal plan coordination: иерархичность планов явно моделируется в иерархичных generative models или агентских архитектурах, также эмерджентая координация между независимыми агентами рассматривается в Active Inference моделях коллективного интеллекта.

Отличие австрийской от неоклассической школы – такое же, как отличие “медицины по статистическим RCTs” от медицины по причинным моделям индивида

Ключевая идея и описание отличия австрийской школы от неоклассической школы попала почему-то не в учебник по Системному менеджменту и раздел про австрийскую школу, а в учебник Интеллект-стек и раздел про объяснения:

Людвиг фон Мизес даже считал экономику (в варианте австрийской школы552) поддисциплиной праксеологии, а другими дисциплинами там были (тоже «австрийские», то есть праксеологические) право, социология, но эти проекты «не взлетели», а австрийская экономика вполне «взлетела» и до сих пор жива, находясь до сих пор в конкуренции с «мейнстримной» неоклассической экономикой именно по расхождению в теории принятия решений. Австрийцы ещё со второй половины 20 века интуитивно понимают, что речь идёт о графах причинности и объяснениях (и напирают на контрфактуальность в этих объяснениях), и это задолго до формализации в causal inference, которая более-менее оформилась где-то после выхода работ Judea Pearl 2009 года. Теории, построенные на основе рациональных объяснений, «австрийцы» называли «аксиоматическими», подчёркивая, что аксиомы «кладутся» из ниоткуда, они догадки/гипотезы/guesses, а дальше критика и логика делают своё дело, чтобы выжили сильнейшие наборы догадок/аксиом. Поэтому «австрийцы» уклончиво говорили всё время, что они избегают численных моделей, и модели их качественные, ибо в те времена, когда они работали, невозможно было обсуждать неклассические теории вероятности.

Экономисты-неоклассики (так называемый «экономический мейнстрим», ибо это большинство сегодня живущих экономистов) обходятся корреляциями и статистическими зависимостями, первый уровень causal ladder, они довольствуются предсказательными моделями, эмпирицизм в чистом виде. Это относится не только к экономистам (нормативным, которые на основе устаревшей теории принятия решений принимают плохо работающие законы в сфере экономики), но и к медикам (они принимают плохие решения по лечению людей и животных), социологам (плохие решения по поводу установления культурных норм поведения людей в группах), и так далее — везде, где опираются только на классическую статистику, игнорируя полную лестницу причинности, то есть опору на «аксиоматическую теорию»/контрфактуальные объяснения.

Хотя книга “Austrian Economics Re-examined” имеет дальше главы 2014 года, я пока прочитал только статью-главу 1980 года написания. Там пишут, например, такое:

Models of stochastic equilibrium are completely incapable of handling
radical uncertainty. If an individual were to face a price that did not lie on
his probability distribution, the model could not explain how he would react
(Stigum, 1969 , p. 549). True learning has not taken place and therefore it is
unlikely that the individual would react in some constant way, i.e., his expectations function itself would change. This is because the disappointment “of
the fi rst situation must always enter as a new parameter into the second”
decision (Hahn, 1952 , p. 805). The agent will take account of his previous
mistakes. Consequently, the stability of expectation functions and hence the
maintenance of stochastic equilibrium is dependent on the complete elimination of surprises.

Is it possible to say something about how expectation functions will change
as people engage in genuine learning? Obviously, some kind of metatheory is necessary to explain a change in the “theories” by which people form their
expectations or make their predictions. Such a theory is not yet available
(Hahn, 1973 , p. 21). Nevertheless, we can say something about how it might
look. In the first place, recognition of the possibility that something undreamt
might happen will itself have an impact on the confidence with which people
hold their expectations. Second, what people will learn from their disappointments and how they will respond to them is something that we can hope to explain only in very general terms. We might be able to exclude some possible modes of adjustment or, alternatively, specify a probably large set of possible expectations functions. Fundamentally, our inability to determine more precisely the method by which changes in these functions occur lies in the impossibility of predicting the future course of knowledge. That course is radically uncertain.

Конечно, Active Inference (а также WaNN Ванчурина) претендуют как раз на позицию этой мета-теории.

Цель социальных (в т. ч. экономических) институтов – повышать координацию между агентами

Понравилась эта мысль:

The focus of Austrian economics, as we have seen, is on the plans or actions
of individuals rather than directly on social wholes or institutions. One of the
key diffi culties of some applications of static welfare theory is that focus of the
individual is suppressed by use of the aggregative concept of social welfare.
This is particularly true in contexts that make use of the Kaldor-Hicks potential compensation principle: the actual loss of one individual is “offset” by the
gain to another. Whether the social welfare measure is based on a willingnessto-pay approach or on a social-indifference system does indeed matter. The
latter, of course, is even more offensive to those who take seriously the differences among individuals. Nevertheless, both approaches tend to aggregate
gains and losses in a way appropriate if society were a single individual. On
the other hand, Austrians prefer to view social institutions in terms of their
ability to coordinate individual plans (Kirzner, 1973 , pp. 212–34). Certainty
creation, knowledge dissemination, and incentive enhancement are all factors that tend to increase the opportunities for voluntary exchange and thus
the possibilities for coordination. In the fi nal analysis, however, no approach
to economics can eliminate the need for ethics and social philosophy in the
determination of policy. Hence the coordination approach, like all others, will
never be a complete basis for policy unto itself.

Помимо перечисленных способов повышать координацию (certainty creation, knowledge dissemination, and incentive enhancement), сейчас можно добавить еще один – прямая операционализация координации через digital twins как для отдельных агентов (людей, компаний) так и коллективов/сообществ/обществ (в рамках какого-то домена, например, сельское хозяйство, нутрициология, динамика эпидемии, политические предпочтения, и т. д.), и обмен информации между ними, как описано тут или тут.

5 лайков

Несколько новых важных (кажется) статей на счёт computational cooperation и credit assignment, пока без обсуждения:

Cooperative Graph Neural Networks

Ben Finkelshtein, Xingyue Huang, Michael Bronstein, İsmail İlkan Ceylan
Graph neural networks are popular architectures for graph machine learning, based on iterative computation of node representations of an input graph through a series of invariant transformations. A large class of graph neural networks follow a standard message-passing paradigm: at every layer, each node state is updated based on an aggregate of messages from its neighborhood. In this work, we propose a novel framework for training graph neural networks, where every node is viewed as a player that can choose to either ‘listen’, ‘broadcast’, ‘listen and broadcast’, or to ‘isolate’. The standard message propagation scheme can then be viewed as a special case of this framework where every node ‘listens and broadcasts’ to all neighbors. Our approach offers a more flexible and dynamic message-passing paradigm, where each node can determine its own strategy based on their state, effectively exploring the graph topology while learning. We provide a theoretical analysis of the new message-passing scheme which is further supported by an extensive empirical analysis on a synthetic dataset and on real-world datasets.

Recurrent Distance-Encoding Neural Networks for Graph Representation Learning

Yuhui Ding, Antonio Orvieto, Bobby He, Thomas Hofmann

Graph neural networks based on iterative one-hop message passing have been shown to struggle in harnessing information from distant nodes effectively. Conversely, graph transformers allow each node to attend to all other nodes directly, but suffer from high computational complexity and have to rely on ad-hoc positional encoding to bake in the graph inductive bias. In this paper, we propose a new architecture to reconcile these challenges. Our approach stems from the recent breakthroughs in long-range modeling provided by deep state-space models on sequential data: for a given target node, our model aggregates other nodes by their shortest distances to the target and uses a parallelizable linear recurrent network over the chain of distances to provide a natural encoding of its neighborhood structure. With no need for positional encoding, we empirically show that the performance of our model is highly competitive compared with that of state-of-the-art graph transformers on various benchmarks, at a drastically reduced computational complexity. In addition, we show that our model is theoretically more expressive than one-hop message passing neural networks.

Federated inference and belief sharing

https://www.sciencedirect.com/science/article/pii/S0149763423004694

Karl J Friston, Thomas Parr, Conor Heins, Axel Constant, Daniel Friedman, Takuya Isomura, Chris Fields, Tim Verbelen, Maxwell Ramstead, John Clippinger, Christopher D Frith

This paper concerns the distributed intelligence or federated inference that emerges under belief-sharing among agents who share a common world-and world model. Imagine, for example, several animals keeping a lookout for predators. Their collective surveillance rests upon being able to communicate their beliefs-about what they see-among themselves. But, how is this possible? Here, we show how all the necessary components arise from minimising free energy. We use numerical studies to simulate the generation, acquisition and emergence of language in synthetic agents. Specifically, we consider inference, learning and selection as minimising the variational free energy of posterior (i.e., Bayesian) beliefs about the states, parameters and structure of generative models, respectively. The common theme-that attends these optimisation processes-is the selection of actions that minimise expected free energy, leading to active inference, learning and model selection (a.k.a., structure learning). We first illustrate the role of communication in resolving uncertainty about the latent states of a partially observed world, on which agents have complementary perspectives. We then consider the acquisition of the requisite language-entailed by a likelihood mapping from an agent’s beliefs to their overt expression (e.g., speech)-showing that language can be transmitted across generations by active learning. Finally, we show that language is an emergent property of free energy minimisation, when agents operate within the same econiche. We conclude with a discussion of various perspectives on these phenomena; ranging from cultural niche construction, through federated learning, to the emergence of complexity in ensembles of self-organising systems.