Гибридный интеллект для контрфактуального анализа, оценки кумулятивного риска, и коллективного обучения в критичных к безопасности сложных системах

Задача: продвинуть state-of-the-art в активном управлении/познании/active inference критичных к безопасности/надежности сложных систем, таких как сельское хозяйство, логистические цепи, транспортные системы, энергетические системы, финансовые системы.

Примечательно, что почти любые системы становятся сложными, когда включают обучаемые (даже в оффлайне, но особенно во время работы) компоненты в контур управления, потому что появляется нелинейная эволюционная динамика. Примеры: автомобили с автопилотом, аккумуляторы с “интеллектуальными” системами управления (“smart” Battery Management Systems).

Решение: гибридный интеллект, который специальным образом связывает два процесса обучения/познания/вывода:
(1) Активный вывод порождающей модели целевой (сложной) системы;
(2) Активный вывод/выявление модели риска/награды/энергии/велью/потребностей (RM, что может обозначать “reward model” или “risk model”) к целевой системе, что может проявляться как выявление потребностей безопасности или надежности от ролей в окружении системы. Ниже агенты в этих ролях называются “пользователями” для краткости, хотя это не совсем точности с точки зрения онтологии, потому что агенты в ролях являются частями гибридного интеллекта.

Архитектурная концепция гибридного интеллекта включает три основных компоненты:

  • Иерархичную порождающую мульти-модель (GM) целевой системы. Иерархия отражает разделение параметров модели, общих для домена и специфичных для конкретного контекста. Это “мульти”-модель, потому что общая для домена часть объединяется со многими специфичными частями в разных контекстах. GM может как использоваться для активного управления (model-predictive control) целевой системой или ее частями (в этом случае, GM является цифровым двойником), так и выведена из динамики целевой системы без активного управления: в этом случае, GM является цифровой тенью/digital shadow или моделью/digital model. GM может быть реализована как GFlowNet.
  • ИИ-ассистента, который помогает пользователям оценивать или ранжировать возможные контрфактуальные траектории целевой системы, как ретроспективно, так и проспективно, сэмплируя траектории из GM, с возможным обуславливанием/conditioning интересными для пользователей интервенциями/causal graph interventions. Ассистент также оценивает кумулятивный риск на каком-то конечном горизонте, маргинализируя по всем возможным траекториям с определенного момента (в GFlowNets именно такую маргинализацию дают conditional flow functions), учитывая также эпистемную неопределенность в RM, и следовательно, в кумулятивной оценке риска возможные будущие изменения в самой RM.
  • Сеть контекстно-специфичных RMs, обученных/выведенных из фидбека пользователей в конкретных контекстах. Эти RMs участвуют в федеративном обучении по протоколу, основанном на Active Inference.

Предполагается, что надежность и безопасность целевых систем улучшают:

К изложенному выше приветствуются комментарии и замечания.

П. С. Кажется, слово “выявление” не встречается в синонимичном ряду в обучения/познания/вывода в курсах, а ведь подходит.

2 лайка

Поясните, пожалуйста, как связаны задача и решение?

Задача “продвинуть” - она маркетинговая (promotion)?

Задача, в общем-то, создать хоть какой-то инструмент “управления/познания/active inference критичных к безопасности и надежности сложных систем”, который научно и статистически обоснован (а также отчуждаем, повторяем, и т. д.), кроме “интуиции и набора личных эвристик самых экспертных экспертов и практиков” в конкретном домене. Это в разной степени относится ко всем конкретным целевым системам, которые я упомянул, но особенно к сельскому хозяйству и к финансовой системе.

Задача не маркетинговая, а исследовательская и инженерная. “Продвинуть” это “advance” [SoTA of science or engineering].

1 лайк

Насколько я понимаю, системное мышление в версии ШСМ старается не делать акцента (различия) на том, какой именно природы интеллектуальные агенты входят в состав систем. Таким образом, под термином “обучаемые компоненты” могут пониматься как ИИ, так ЕИ (носители “мокрых нейросеток”).

С учётом этой концепции \ методологии - не стоит ли переформулировать задачу?

Если напрямую переложить эти “интуиции и личные эвристики” в ИИ, собрав датасеты и обучив ИИ, чем эти “чёрные ящики” будут лучше экспертных экспертов, не ставящих шкуру на кон?

Как планируется задействовать объяснимый ИИ (Explainable AI, XAI)?

Вроде бы ничего не надо переформулировать – большинство упомянутых систем уже включают “мокрых людей” в той или иной степени: люди принимают решения в сфере финансов, потребления энергии, транспортных перемещений, фермеры принимают решения о том, что делать со своей землей.

Если напрямую переложить эти “интуиции и личные эвристики” в ИИ, собрав датасеты и обучив ИИ, чем эти “чёрные ящики” будут лучше экспертных экспертов, не ставящих шкуру на кон?

Непонятно, что имеется ввиду. “Напрямую переложить” пока не очень знают как. Хотя Левенчук упоминает в презентации knowledge graphs скрещиваемые с LLMs, можно это рассматривать как альтернативу в некоторых случаях, но не когда активно задействуется интуиция - ее в knowledge graphs не положить по определению.

Как планируется задействовать объяснимый ИИ (Explainable AI, XAI)?

Семплирование контрфактуальных траекторий это как раз “as explainable as it can get”.

1 лайк

Вот практически оно:

A dynamic Bayesian optimized active recommender system for curiosity-driven partially Human-in-the-loop automated experiments

Optimization of experimental materials synthesis and characterization through active learning methods has been growing over the last decade, with examples ranging from measurements of diffraction on combinatorial alloys at synchrotrons, to searches through chemical space with automated synthesis robots for perovskites. In virtually all cases, the target property of interest for optimization is defined a priori with the ability to shift the trajectory of the optimization based on human-identified findings during the experiment is lacking. Thus, to highlight the best of both human operators and AI-driven experiments, here we present the development of a human–AI collaborated experimental workflow, via a Bayesian optimized active recommender system (BOARS), to shape targets on the fly with human real-time feedback. Here, the human guidance overpowers AI at early iteration when prior knowledge (uncertainty) is minimal (higher), while the AI overpowers the human during later iterations to accelerate the process with the human-assessed goal. We showcase examples of this framework applied to pre-acquired piezoresponse force spectroscopy of a ferroelectric thin film, and in real-time on an atomic force microscope, with human assessment to find symmetric hysteresis loops. It is found that such features appear more affected by subsurface defects than the local domain structure. This work shows the utility of human–AI approaches for curiosity driven exploration of systems across experimental domains.

Правильно ли понял?

  1. Есть какой-то “станок”, который генерит модели некой целевой системы
  2. “Станок” имеет возможность собирать обратную связь от работы выданных моделей
  3. У “станка” есть механизм оценки порожденных моделей, модель оценки качества, которая корректирует выдачу.
  4. У “станка” есть неограниченные ресурсы на оценку альтернативных вариантов выдачи.

Если так, то вопросы следующие:

  1. Что на входе у станка? С чем работает и как?
  2. Кто и для чего создает станок? Кто модернизирует и для чего?
  3. Что и как меняется в работе станка при получении обратной связи?
  4. В чем заключается гибридность? Если отбросить бесконечный ресурсоемкий просчет альтернатив, то похоже на классическую схему Chollet [1911.01547] On the Measure of Intelligence

Работа по ссылке выше на 80% реализует описанную мной идею, там разве что контрфактуального планирования нет, но это финтифлюшки. И на все ваши вопросы там есть ответ.

  1. Работает с данными и RM (моделью/функцией “награды”/интересов/ценности/етц)
  2. Для контроля learning-enabled systems :slight_smile:
  3. Он выдает ответы, biased в сторону RM (“biased GM”). Либо с ходу, через Monte Carlo search, либо после дообучения, для более быстрой сходимости поиска.
  4. Гибридность заключается в том, что на суд стейкхолдера даются симулированные альтернативы, отсутствующие в реальном мире, поэтому априори они не могут быть заданы. Стейкхолдер может даже познать свои интересы в этот момент, а не выдать что-то заготовленное.

Прочитал статью. Спасибо!
Как я понял из статьи: похоже на то, что сначала создается гипотеза об интересе агента к системе на основе рекомендательного алгоритма для выбора объектов анализа и оптимизации, а потом на основании его интереса прорабатываются выбранные куски материала через дешевую достаточно типичную вычислительную модель на основе подобия запросов через Байесовскую оптимизацию. После чего выдается на выход опять-таки человеку, и он ставит оценку для последующего обучения рекомендательного алгоритма (one downvote option and two different upvote options). Т.е. мы автоматизируем процесс выборки. Этот процесс выборки дешев, поэтому мы можем его прогонять множество раз для настройки фокусировке, выбора оптимизируемого парламента, но потом опять будет прогон по байесовой оптимизации на настроенной цели.
По сути, это управление вниманием оператора на основе рекомендательного алгоритма типа facebook.
Теперь возвратимся к Вашему предложению: продвинуть SOTA критичных к надежности систем.
И описание архитектуры:
Компонент А: Механизм порождения моделей целевой системы
Компонент B: Механизм оценки порожденных моделей, в том числе оценки человеком
Компонент С: Собранная обратная связь по прошлому опыту использования порожденных моделей.
И дальше задается гипотеза суррогатной модели оптимизации для функции надежности/безопасности.

Теперь некоторые комментарии:

  1. Похоже, что контрфактуальность для создания хороших и лучших/SOTA/ объяснений важна, т.к. по Дойчу хорошие объяснения рождаются из догадок, а не порождены анализом данных.
  2. В статье, на которую Вы ссылаетесь, КМК, говорится об автоматизации управления вниманием оператора, а не о порождении моделей объяснительных для какого-либо домена. Гипотеза статьи, что это управление вниманием может быть потом полезно в целях научного поиска
  3. Ваш комментарий на п.4 опять возвращает к контрфактуальности в разрезе ответа на вопрос: что может быть, а что быть не может. Стимулированные альтернативы могут иметь бесконечное кол-во вариантов, на просчет которых уйдет ровно все ресурсы вселенной. Но есть ограничения, чего быть не может, что существенно сужает поиск, но по факту является SOTA научного объяснения в како-либо домене.
  4. По сути, должны быть встроенные какие-то SOTA объяснительные модели в движок и процедура их улучшения. Почти как традиционная развитие науки: догадка-проверка в физике-критика-догадка. Только в Вашем случает проверки в физике не происходит, а просто какая-то другая нейросетка дает оценку порожденной модели. Пропущено «заземление».