В дискуссиях об ИИ-безопасности регулярно слышу онтологический дребезг, вызванный фундаментальной ошибкой категоризации: путаницей между концептом (системой идей) и классом агентов, предположительно этот концепт воплощающих. Типичный пример подобной ошибки звучит так: “Почему бы не создать ИИ-буддиста? Буддизм – мирная религия, значит, такой ИИ не будет опасен.”
В этом случае не различаются два принципиально разных объекта моделирования:
- Метод (буддизм как набор идей, принципов) – описание содержания поведения, онтика предметной области, нормативное описание
- Работа (конкретного действующего агента) – реальная физическая деятельность, акт, совершающийся в физическом мире с реальными ресурсами
Ошибка заключается в предположении, что описание метода (буддизма) автоматически определяет, как будет выполняться работа (реальные действия агента). Это равносильно ошибочному отождествлению инструкции по сборке стола с самим процессом сборки в физическом мире. Наличие инструкции не гарантирует, что сборка будет выполнена точно по ней.
История демонстрирует системный разрыв между нормативным описанием буддизма и реальным поведением буддистских сообществ в различных исторических контекстах:
- Буддистские монахи в Мьянме и их участие в преследовании рохинджа
- Сохэй (монахи-воины) в средневековой Японии
- Вовлеченность буддистских групп в гражданский конфликт в Шри-Ланке
Это лишь частные проявления универсального разрыва между описаниями (метод) и происходящим в реальности (работа). Те, кто предлагают “создать ИИ-буддиста”, упускают из виду эту разницу.
Биологические агенты содержат множество конфликтующих представлений, между которыми происходит непрерывное переключение внимания. Человек может:
- Идентифицировать себя как часть конфессии
- Выступать в разных ролях (защитник, мститель, конкурент)
- Активировать разные способы рассмотрения в зависимости от контекста
Даже обладая набором нормативных описаний буддистского поведения, агент не гарантированно будет действовать в соответствии с ними. Физические ограничения и непредвиденные обстоятельства реального мира часто вынуждают агента действовать вопреки своим декларируемым принципам. Например, буддист может прибегнуть к насилию для защиты себя или других, даже если это противоречит идеалам ненасилия.
Неясно, чем принципиально отличаются ИИ-агенты от биологических в аспекте соотношения моделей и физической реальности. Если мы заложим в ИИ определенную систему ценностей, это не гарантирует, что:
- Система сможет правильно заземлить абстрактные концепты в конкретных физических ситуациях
- Внимание не будут смещено на другие представления, выведенные из обучающих данных
- Между нормативными описаниями и реальной работой не возникнет разрыв
Попытки “прунить” нежелательные представления в моделях ИИ с помощью RLHF или других подходов приведут к онтологической проблеме: мы не можем удалить понимание эвристик реального мира, не повредив адекватность модели.
Вместо создания “ИИ-буддистов” или других попыток “загрузки” этических систем для успокоения общественности, предлагаю сфокусироваться на решении реальных проблем ИИ-безопасности: разрабатывать конкретные, проверяемые механизмы ограничения потенциально опасного поведения, прояснять фундаментальное различие между методом и работой в публичных дискуссиях, и в конце концов учиться договариваться с другими видами интеллекта. Чтобы к этом продвинуться, предлагаю “душнить” – прояснять различие между методом и работой при чувстве дребезга в дискуссиях о безопасности ИИ. Надеюсь, это будет достаточно сильным сигналом для компаний-разработчиков.