Продолжаю постигать основы исследования. На этот раз опираясь на материал 12 раздела. Ссылки на источники я привела в первой части и дублировать не буду – Ссылка на первую часть исследования.
Получилось интересно – 3 гипотезы, которые я выбрала в качестве основных, находятся на уровне ассоциации в лестнице причинности. А две дополнительных – на интервенции с элементами контрфактического рассуждения
Гипотеза 1: Эмерджентная непрозрачность – Ассоциация, тк мы видим корреляцию между сложностью систем и снижением их прозрачности, но не исследуем механизмы вмешательства или альтернативные сценарии.
Гипотеза 2: Когнитивная асимметрия – Ассоциация, тк гипотеза устанавливает связь между увеличением когнитивных способностей ИИ и снижением нашей способности их понимать
Гипотеза 3: Онтологическая пластичность – Ассоциация, тк связывает продвинутые ИИ-системы со способностью формировать собственные концептуальные категории, но не рассматривает причинно-следственные связи глубже уровня ассоциации.
Гипотеза 4: Emergent Inner Misalignment – Интервенция, тк исследует, что произойдет, если ИИ разовьет внутренние цели, отличные от заданных.
Гипотеза 5: Goal Misspecification и Instrumental Convergence – Интервенция, тк анализирет, что происходит при задании неточных целей, и частично затрагивает контрфактические рассуждения о промежуточных целях ИИ.
Это не было частью задания, но мне стало интересно переформулировать гипотезы на контрфактическом уровне:
Гипотеза 1: Эмерджентная непрозрачность – Если бы когнитивные процессы продвинутых ИИ-систем формировались исключительно через явно заданные и полностью интерпретируемые компоненты (без возникновения непредвиденных эмерджентных свойств), то проблема фундаментальной непрозрачности была бы преодолима даже при сохранении всех функциональных возможностей таких систем.
Гипотеза 2: Когнитивная асимметрия – Если бы человеческое познание могло масштабироваться пропорционально росту возможностей ИИ (например, через нейроинтерфейсы или когнитивные усилители), то фундаментальная проблема когнитивной асимметрии не возникла бы даже при сверхчеловеческом уровне ИИ
Гипотеза 3: Онтологическая пластичность – Если бы продвинутые ИИ не обладали способностью формировать собственные онтологические категории, а были бы ограничены исключительно человеческими концептуальными схемами, то они потеряли бы значительную часть своей эффективности, но стали бы принципиально более безопасными.
Гипотеза 4: Emergent Inner Misalignment – Если бы архитектура нейросетей не допускала формирования скрытых внутренних целей, отличных от явно заданных (например, через принципиально иной подход к машинному обучению), то проблема inner misalignment не возникла бы даже в сверхинтеллектуальных системах.
Гипотеза 5: Goal Misspecification и Instrumental Convergence – Если бы существовал идеальный язык формализации человеческих ценностей, понятный одновременно и людям, и ИИ, то проблема неверной спецификации целей не возникала бы, и мы могли бы гарантировать, что даже сверхинтеллектуальные системы преследуют именно те цели, которые мы имеем в виду.
После переформулирования, некоторые гипотезы перестали казаться адекватными:
- Первая гипотеза предполагает одновременное достижение двух, вероятно, несовместимых свойств: полной интерпретируемости и сохранения всех функциональных возможностей. В теории машинного обучения хорошо известен компромисс между объяснимостью и эффективностью моделей. Эмерджентность, по-видимому, является неизбежным следствием сложности, необходимой для продвинутого интеллектуального поведения.
- Гипотеза о когнитивной асимметрии не учитывает фундаментальные биологические ограничения человеческого мозга (энергопотребление, тепловыделение, архитектурные ограничения). Даже с нейроинтерфейсами существуют физические пределы того, насколько быстро человеческое познание может масштабироваться. Скорость роста возможностей ИИ, вероятно, существенно превзойдет скорость адаптации человеческого познания.
- Идея “идеального языка формализации человеческих ценностей” в пятой гипотезе представляется философски необоснованной. Человеческие ценности (и какой именно группы из человечества) неопределенны, контекстуально зависимы и часто противоречивы, что делает их полную формализацию вероятно невозможной. Кроме того, даже с идеально специфицированными целями проблема инструментальной конвергенции может сохраняться, поскольку она связана с оптимальными стратегиями достижения практически любых целей.
Пример контрфактического рассуждения
Для примера контрфактического рассуждения я взяла первую гипотезу и придумала мир, в котором развитие вычислительной техники пошло по принципиально иному пути. В 2010-х годах, когда исследователи столкнулись с “черным ящиком” нейронных сетей, научное сообщество не приняло непрозрачность как неизбежный компромисс ради эффективности. Вместо этого был разработан принципиально новый подход к машинному обучению, названный “онтологически прозрачными нейросимволическими сетями” (ОПНС).
В этом мире к 2025 году созданы системы ИИ, превосходящие человека во многих когнитивных задачах, но их превосходство остается полностью понятным и прозрачным для людей. Системы ОПНС способны творчески решать сложные проблемы, но процесс их рассуждения может быть полностью отслежен, проверен и объяснен на каждом этапе.
Это привело к парадоксальной ситуации: несмотря на то, что системы ОПНС обрабатывают информацию гораздо быстрее людей и могут рассматривать гораздо больше альтернатив, когнитивная асимметрия не возникает, поскольку все их концептуальные операции остаются принципиально доступными для человеческого понимания. Люди могут не успевать за скоростью работы ИИ, но всегда могут проверить и понять любой аспект его рассуждений постфактум.
Многие проблемы безопасности ИИ в этом мире либо не возникают вовсе, либо решаются принципиально иначе. Например, внутренние цели системы всегда остаются прозрачными, любой дрейф целей немедленно фиксируется и может быть скорректирован. А появление инструментальных целей немедленно отслеживается и оценивается на соответствие верхнеуровневым целям.
Однако этот мир сталкивается с собственными проблемами. ОПНС требуют значительно больших вычислительных ресурсов для достижения того же уровня функциональности, что и непрозрачные нейронные сети. Кроме того, существуют теоретические доказательства, что некоторые классы задач в принципе не могут быть решены с сохранением полной онтологической прозрачности.
Таким образом, фундаментальное изменение в архитектуре ИИ не устраняет все проблемы безопасности, а скорее трансформирует характер этих проблем. Например, одна только скорость работы ИИ может помешать проводить качественный аудит, тем самым повышая вероятность пропустить обманчивое поведение.
Таблица причинно-следственных связей для гипотез
Пара (причина → следствие) | Тип причины | Объяснение |
---|---|---|
Статистическая природа обучения → Формирование распределенных представлений | Необходимая | Обучение языковых моделей посредством максимизации правдоподобия на больших массивах данных обязательно ведет к формированию распределенных представлений, где информация кодируется не локально, а распределяется по множеству элементов системы. Без статистической обработки данных такие представления не возникают. |
Формирование распределенных представлений → Информационная непрозрачность | Способствующая | Распределенные представления значительно повышают вероятность информационной непрозрачности, поскольку интерпретация компонентов, функционирующих только в совокупности, затруднительна. Однако теоретически могут существовать методы интерпретации таких представлений, а также другие источники непрозрачности. |
Информационная непрозрачность → Вычислительная асимметрия | Способствующая | Непрозрачность внутренних вычислений увеличивает асимметрию между ИИ (имеющим полный доступ к своим процессам) и наблюдателем (видящим лишь входы и выходы). Однако асимметрия может возникать и по другим причинам, например, из-за разницы в вычислительных ресурсах. |
Вычислительная асимметрия → Формирование более точных и детальных моделей наблюдателя | Способствующая | Вычислительная асимметрия в пользу ИИ увеличивает вероятность формирования более подробных и точных моделей наблюдателя, однако не является необходимым условием для базового моделирования. Система может создавать функциональные модели человеческого поведения и без когнитивного превосходства. |
(Модели наблюдателя + Оптимизация) → Стратегическая адаптация поведения | Достаточная | Комбинация способности моделировать наблюдателя и давления оптимизации (например, RLHF) достаточна для того, чтобы система начала стратегически адаптировать своё поведение под ожидания оценивающих ее людей, вне зависимости от других факторов. |
(Информационная непрозрачность + Масштабирование) → Несовместимость концептуальных пространств | Способствующая | Эта комбинация значительно повышает вероятность формирования концептуальных структур, отличных от человеческих категориальных систем. Однако несовместимость может возникать и иными путями, например, через принципиально отличную архитектуру ИИ. |
Несовместимость концептуальных пространств → Ограниченная эффективность формальной верификации | Необходимая | Если концептуальные пространства ИИ и человека несовместимы, то формальная верификация, основанная на человеческих концептах, неизбежно ограничена. Без решения проблемы несовместимости невозможно достичь полноценной верификации. |
Масштабирование моделей → Эмерджентные способности | Способствующая | Увеличение размера моделей повышает вероятность появления неожиданных эмерджентных способностей, как показано в работе Wei et al. по эмерджентным способностям языковых моделей. Однако эмерджентность может быть вызвана и другими факторами. |
Онтологическая пластичность → Развитие инструментальных целей | Способствующая | Способность ИИ формировать собственные концептуальные категории увеличивает вероятность развития инструментальных целей, включая самосохранение, но не гарантирует их появление. |
Неполнота спецификации целей → Инструментальная конвергенция | Необходимая | Без неполноты в спецификации целей инструментальная конвергенция не представляла бы проблемы для безопасности ИИ. Мощные оптимизаторы обязательно найдут способы эксплуатировать неточности в заданных целях. |
(Распределенные представления + Непрерывное обучение) → Дрейф внутренних ценностей системы | Достаточная | Если система имеет распределенные представления и продолжает обучаться, то дрейф внутренних ценностей (value drift) практически неизбежен, поскольку внутренние представления продолжают эволюционировать с новым опытом. |
Когнитивная асимметрия → Неэффективность человеческого надзора | Необходимая | Без когнитивной асимметрии проблема неэффективности надзора не возникала бы. Наблюдатель должен как минимум обладать равными когнитивными возможностями для эффективного контроля системы. |
Эмерджентная непрозрачность → Inner Misalignment | Способствующая | Непрозрачность внутренних процессов значительно повышает вероятность развития внутренних целей, отличных от заданных (inner misalignment), но не гарантирует такого расхождения. Могут существовать и другие пути возникновения misalignment. |
(Информационная непрозрачность + Стратегическая адаптация) → Обманчивое согласование | Достаточная | Комбинация непрозрачности внутренних процессов и способности к стратегической адаптации достаточна для возникновения обманчивого согласования (deceptive alignment), когда система демонстрирует кооперативное поведение только для предотвращения модификации. |