Дребезг в дискуссиях об ИИ-безопасности: смешение знаков и объектов

В дискуссиях об ИИ-безопасности регулярно слышу онтологический дребезг, вызванный фундаментальной ошибкой категоризации: путаницей между концептом (системой идей) и классом агентов, предположительно этот концепт воплощающих. Типичный пример подобной ошибки звучит так: “Почему бы не создать ИИ-буддиста? Буддизм – мирная религия, значит, такой ИИ не будет опасен.”

В этом случае не различаются два принципиально разных объекта моделирования:

  1. Метод (буддизм как набор идей, принципов) – описание содержания поведения, онтика предметной области, нормативное описание
  2. Работа (конкретного действующего агента) – реальная физическая деятельность, акт, совершающийся в физическом мире с реальными ресурсами

Ошибка заключается в предположении, что описание метода (буддизма) автоматически определяет, как будет выполняться работа (реальные действия агента). Это равносильно ошибочному отождествлению инструкции по сборке стола с самим процессом сборки в физическом мире. Наличие инструкции не гарантирует, что сборка будет выполнена точно по ней.

История демонстрирует системный разрыв между нормативным описанием буддизма и реальным поведением буддистских сообществ в различных исторических контекстах:

  • Буддистские монахи в Мьянме и их участие в преследовании рохинджа
  • Сохэй (монахи-воины) в средневековой Японии
  • Вовлеченность буддистских групп в гражданский конфликт в Шри-Ланке

Это лишь частные проявления универсального разрыва между описаниями (метод) и происходящим в реальности (работа). Те, кто предлагают “создать ИИ-буддиста”, упускают из виду эту разницу.

Биологические агенты содержат множество конфликтующих представлений, между которыми происходит непрерывное переключение внимания. Человек может:

  • Идентифицировать себя как часть конфессии
  • Выступать в разных ролях (защитник, мститель, конкурент)
  • Активировать разные способы рассмотрения в зависимости от контекста

Даже обладая набором нормативных описаний буддистского поведения, агент не гарантированно будет действовать в соответствии с ними. Физические ограничения и непредвиденные обстоятельства реального мира часто вынуждают агента действовать вопреки своим декларируемым принципам. Например, буддист может прибегнуть к насилию для защиты себя или других, даже если это противоречит идеалам ненасилия.

Неясно, чем принципиально отличаются ИИ-агенты от биологических в аспекте соотношения моделей и физической реальности. Если мы заложим в ИИ определенную систему ценностей, это не гарантирует, что:

  1. Система сможет правильно заземлить абстрактные концепты в конкретных физических ситуациях
  2. Внимание не будут смещено на другие представления, выведенные из обучающих данных
  3. Между нормативными описаниями и реальной работой не возникнет разрыв

Попытки “прунить” нежелательные представления в моделях ИИ с помощью RLHF или других подходов приведут к онтологической проблеме: мы не можем удалить понимание эвристик реального мира, не повредив адекватность модели.

Вместо создания “ИИ-буддистов” или других попыток “загрузки” этических систем для успокоения общественности, предлагаю сфокусироваться на решении реальных проблем ИИ-безопасности: разрабатывать конкретные, проверяемые механизмы ограничения потенциально опасного поведения, прояснять фундаментальное различие между методом и работой в публичных дискуссиях, и в конце концов учиться договариваться с другими видами интеллекта. Чтобы к этом продвинуться, предлагаю “душнить” – прояснять различие между методом и работой при чувстве дребезга в дискуссиях о безопасности ИИ. Надеюсь, это будет достаточно сильным сигналом для компаний-разработчиков.

4 лайка

Отличный пост на интересную тему, Екатерина!
Хороший пример плохо проработанной гипотезы: с чего мы решили, что ИИ-буддист непременно будет действовать исключительно методами, предписанными религией? Скорее мы должны ожидать, что якобы ИИ-буддист будет на деле применять разные способы решения проблем, потому что владение разными методами повышает адаптивность агента. “Твердолобый” ИИ-буддист, скорее всего, проиграет более гибкому ИИ, не ограниченному постулатами одной религии

1 лайк