Задача: продвинуть state-of-the-art в активном управлении/познании/active inference критичных к безопасности/надежности сложных систем, таких как сельское хозяйство, логистические цепи, транспортные системы, энергетические системы, финансовые системы.
Примечательно, что почти любые системы становятся сложными, когда включают обучаемые (даже в оффлайне, но особенно во время работы) компоненты в контур управления, потому что появляется нелинейная эволюционная динамика. Примеры: автомобили с автопилотом, аккумуляторы с “интеллектуальными” системами управления (“smart” Battery Management Systems).
Решение: гибридный интеллект, который специальным образом связывает два процесса обучения/познания/вывода:
(1) Активный вывод порождающей модели целевой (сложной) системы;
(2) Активный вывод/выявление модели риска/награды/энергии/велью/потребностей (RM, что может обозначать “reward model” или “risk model”) к целевой системе, что может проявляться как выявление потребностей безопасности или надежности от ролей в окружении системы. Ниже агенты в этих ролях называются “пользователями” для краткости, хотя это не совсем точности с точки зрения онтологии, потому что агенты в ролях являются частями гибридного интеллекта.
Архитектурная концепция гибридного интеллекта включает три основных компоненты:
- Иерархичную порождающую мульти-модель (GM) целевой системы. Иерархия отражает разделение параметров модели, общих для домена и специфичных для конкретного контекста. Это “мульти”-модель, потому что общая для домена часть объединяется со многими специфичными частями в разных контекстах. GM может как использоваться для активного управления (model-predictive control) целевой системой или ее частями (в этом случае, GM является цифровым двойником), так и выведена из динамики целевой системы без активного управления: в этом случае, GM является цифровой тенью/digital shadow или моделью/digital model. GM может быть реализована как GFlowNet.
- ИИ-ассистента, который помогает пользователям оценивать или ранжировать возможные контрфактуальные траектории целевой системы, как ретроспективно, так и проспективно, сэмплируя траектории из GM, с возможным обуславливанием/conditioning интересными для пользователей интервенциями/causal graph interventions. Ассистент также оценивает кумулятивный риск на каком-то конечном горизонте, маргинализируя по всем возможным траекториям с определенного момента (в GFlowNets именно такую маргинализацию дают conditional flow functions), учитывая также эпистемную неопределенность в RM, и следовательно, в кумулятивной оценке риска возможные будущие изменения в самой RM.
- Сеть контекстно-специфичных RMs, обученных/выведенных из фидбека пользователей в конкретных контекстах. Эти RMs участвуют в федеративном обучении по протоколу, основанном на Active Inference.
Предполагается, что надежность и безопасность целевых систем улучшают:
- “Плотный” и таргетированный фидбек от пользователей (Zhang et al., 2022; Jain et al., 2023; Li et al., 2023a.
- Научно и статистически обоснованные оценки кумулятивного риска (Zhang et al., 2023; Li et al., 2023b; Bengio, 2023).
- Коллективное обучение моделей риска/потребностей (Friston et al., 2023; Westby & Riedl, 2023; Kaufmann et al., 2021).
К изложенному выше приветствуются комментарии и замечания.
П. С. Кажется, слово “выявление” не встречается в синонимичном ряду в обучения/познания/вывода в курсах, а ведь подходит.