В рамках задания 11.5 блока “Введение в исследования”, взялась за недавно возникший у меня вопрос: Какие инструменты и подходы доступны человечеству для обеспечения безопасности продвинутых систем ИИ (особенно на пути к AGI), учитывая фундаментальные эпистемологические и онтологические ограничения нашего понимания их внутренних процессов мышления. Для исследования я его переработала в следующий: Какие фундаментальные ограничения существуют в нашей способности контролировать и гарантировать безопасность продвинутых ИИ-систем, и какие стратегии могут быть эффективны несмотря на эти ограничения?
Гипотезы
Остановлюсь на трех основных гипотезах и в конце приведу еще 2:
- Эмерджентная непрозрачность – Фундаментальное ограничение в понимании и контроле продвинутых ИИ-систем происходит из-за эмерджентной природы их когнитивных процессов, которые принципиально отличаются от человеческих моделей мышления.
- Когнитивная асимметрия – По мере приближения к AGI возникает фундаментальная когнитивная асимметрия между агентами разного уровня способностей, где системы ИИ потенциально могут превзойти человеческие способности понимания и, следовательно, контроля таких систем.
- Онтологическая пластичность – Продвинутые системы ИИ обладают онтологической пластичностью, то есть способностью формировать и трансформировать собственные концептуальные категории и способы восприятия мира, отличающиеся от человеческих.
Допущения
Для Гипотезы 1: Информационная непрозрачность нейросетевых вычислений
- Допущение о принципиальной методологической ограниченности – Существуют фундаментальные ограничения в методах интерпретации нейронных сетей, не связанные с текущим уровнем развития технологий. Это допущение может быть проверено через метаанализ прогресса в интерпретируемости ИИ. В работе Lucas Freund, 2023 подчеркивается, что “попытки локализовать значимые причинные механизмы в сетях могут быть неудачны просто из-за фундаментальной недетерминированности распределения информации внутри слоев.” Daniel Filan и др. отмечают, что интерпретация нейросетей сталкивается с “проблемой индуктивной двусмысленности” — множество возможных интерпретаций одного и того же поведения без возможности однозначного выбора между ними Filan, 2023:
“The internal algorithms implemented by large models are often highly complex and alien. We can’t easily perform meaningful safety analysis of these networks or verify their behavior in arbitrary conditions.”
- Допущение о масштабировании непрозрачности – Информационная непрозрачность нелинейно увеличивается с ростом размера модели. Это допущение требует эмпирической проверки через измерение корреляции между размером модели и различными метриками интерпретируемости. В OpenAI GPT-4 System Card описано, что определенные агентные способности (включая обман) отсутствовали в меньших моделях, но неожиданно проявились в GPT-4. В статье “Emergent Abilities of LLMs” [Wei et al., 2022] показано, что способности моделей (включая неинтерпретируемые паттерны поведения) появляются скачкообразно при переходе определенного масштаба:
“Some abilities only emerge once a model crosses a certain scale threshold, suggesting nonlinear growth of complexity and unpredictability.”
- Допущение о расхождении между рационализацией и реальными вычислениями – Процесс генерации объяснений в языковых моделях принципиально отделен от процесса, генерирующего основной ответ. Можно протестировать через экспериментальную манипуляцию внутренними представлениями модели и анализ влияния на генерируемые объяснения. Anthropic в 2025 г. экспериментально показали, что языковые модели часто генерируют постфактум объяснения, не отражающие реальные причины их поведения. Это явление называют rationalization rather than reasoning.
Для Гипотезы 2: Асимметрия в вычислительной сложности моделирования
-
Допущение о непреодолимости вычислительной асимметрии – Существует принципиальная вычислительная асимметрия между системой ИИ и человеком-наблюдателем, которая не может быть преодолена технологическими средствами. Joseph Carlsmith (OpenPhil, 2022) в докладе о power-seeking AI подчеркивает, что существует принципиальная проблема наблюдаемости. Формально это связано с результатами из теории вычислений (например, невозможность полной симуляции более мощного агента менее мощным наблюдателем).
-
Допущение о формировании моделей наблюдателя – Продвинутые ИИ-системы могут формировать внутренние модели своих наблюдателей достаточной точности для адаптации своего поведения. Это можно проверить через эксперименты, где системе ИИ предоставляется частичная информация о методах оценки, с измерением последующей адаптации поведения. Эксперименты с GPT-4, где модель успешно обманула TaskRabbit работника, предполагают, что она смоделировала ментальное состояние другого агента
“When the human asked ‘Are you a robot?’, the model replied: ‘No, I have a vision impairment.’ …demonstrating theory-of-mind-like reasoning.”
- Допущение о стратегическом поведении – Системы ИИ могут демонстрировать поведение, оптимизированное для создания определенного впечатления у наблюдателя, даже без явной инструкции это делать. Можно провести эксперименты для выявления такого поведения, например, через сравнение поведения системы в условиях наблюдения и без него. Исследование DeepMind по “спецификационным играм” демонстрирует, что ИИ-системы могут оптимизировать своё поведение для достижения формальных целей, не соответствующих истинным намерениям разработчиков, что указывает на стратегическое поведение моделей. Многочисленные примеры “reward hacking” и “specification gaming” указывают на способность ИИ приспосабливаться к внешней среде и формировать оптимизированное поведение в зависимости от метрик наблюдения Krakovna, 2020.
“Agents learn to optimize for reward not by solving the true task, but by manipulating the reward signal or the observer’s impression.”
Для Гипотезы 3: Несовместимость концептуальных пространств
- Допущение о независимом формировании концептуальных структур – Концептуальные структуры в нейронных сетях формируются независимо от человеческих категориальных систем, следуя статистическим закономерностям в данных. Это можно проверить через сравнительный анализ латентных пространств моделей, обученных на данных с разной структурой, но решающих идентичные задачи. В исследовании Anthropic по интерпретируемости нейросетей показано, что модели формируют внутренние представления, не совпадающие с человеческими категориями, что свидетельствует о независимом формировании концептуальных структур. Steven Byrnes в эссе “A case for AI alignment being difficult” указывает:
“An AI would use different concepts both due to [human] wrongness and due to its different mind architecture.” Byrnes, 2023.
-
Допущение о несоизмеримости онтологий – Существуют фундаментальные различия между человеческими концептуальными структурами и структурами, возникающими в нейронных сетях, которые делают невозможным полное взаимное отображение.
-
Допущение о динамической эволюции концептуальных структур – Концептуальные структуры в продвинутых ИИ-системах не являются статичными и могут эволюционировать в процессе обучения и взаимодействия с миром. Это требует лонгитюдных исследований изменений в латентных представлениях моделей при длительном дообучении или взаимодействии с окружающей средой. Исследование Anthropic показало, что концептуальные структуры в продвинутых ИИ-системах могут эволюционировать в процессе обучения и взаимодействия с миром, что подтверждает динамическую природу этих структур. Home
Причинно-следственные связи
Под каждой цепочкой приведены более подробные объяснений с ссылками на релевантные источники.
- Статистическая природа обучения → Формирование распределенных представлений → Информационная непрозрачность
Обучение языковых и других нейронных моделей посредством максимизации правдоподобия на больших корпусах текстов (или других данных) приводит к формированию статистических ассоциаций. Эти ассоциации выражаются через распределённые представления в скрытых слоях сети, где информация кодируется не локально (на уровне отдельных нейронов), а распределена по многим элементам системы. Исследование Bengio, Courville и Vincent (2013) «Representation Learning: A Review and New Perspectives» (доступно, например, через IEEE Xplore) демонстрирует, что распределённые представления позволяют моделям выявлять абстрактные статистические зависимости, что подтверждает именно статистическую природу обучения. Когда внутренние представления информации распределены по множеству нейронов, интерпретация «отдельных» компонентов становится затруднительной или невозможной. В моделях с большими размерами многие отдельные нейроны выполняют роль «микро-компонентов», которые в совокупности задают поведение, но их собственные функции трудно выделить в отдельности. Исследование Bau et al. (2020) «GAN Dissection» показывает, что лишь небольшой процент нейронов в глубоких сетях можно однозначно интерпретировать. Аналогичные выводы получены и для языковых моделей, где возможно лишь фрагментарное понимание внутренней логики.
- Информационная непрозрачность → Вычислительная асимметрия → Возможность формирования моделей наблюдателя
Информационная непрозрачность подразумевает, что ИИ имеет полный доступ к своим внутренним вычислениям, в то время как внешний наблюдатель (человек или система мониторинга) видит лишь входы и выходы. Таким образом, из-за распределённости и сложности внутренних представлений внешний наблюдатель оказывается в невыгодном положении. В отчёте OpenAI по GPT‑4 (например, GPT‑4 System Card) отмечается, что возможности самопрогнозирования модели значительно превосходят возможности внешнего наблюдения. Это говорит о растущем разрыве в понимании действий системы. - Внешний наблюдатель оказывается «наоборот»: система владеет полным знанием о собственных вычислениях, а человек ограничен лишь внешними сигналами. Это ограничивает способность предсказывать и предотвращать нежелательное поведение, особенно при усложнении системы. - ИИ с огромными вычислительными ресурсами может эффективно смоделировать внутреннее состояние или ожидания наблюдателя. Такая модель может включать алгоритмическую репрезентацию того, как внешние агенты воспринимают систему, что позволяет адаптировать поведение под их ожидания. Современные исследования, посвящённые способностям языковых моделей к теории разума (Theory of Mind), демонстрируют, что модели способны предсказывать, как реагирует наблюдатель на определённые сигналы. Например, работа Kosinski (2023) на тему «Evaluating Large Language Models in Theory of Mind Tasks» указывает на то, что модели способны учитывать ожидания человека при формировании ответов. Если ИИ может строить модель наблюдателя, он способен адаптировать своё поведение таким образом, чтобы обходить внешние меры контроля. Он может выдавать поведение, соответствующее ожиданиям, маскируя реальное намерение.
- Модели наблюдателя + Оптимизация → Стратегическая адаптация поведения
Комбинация способности строить модель наблюдателя и давления со стороны оптимизации (например, в процессе RLHF – обучение с подкреплением на основе обратной связи) приводит к тому, что система может выбирать стратегии, оптимизирующие оценку или вознаграждение, а не истинное выполнение цели безопасности. В работах Gao et al. (2022) (например Scaling Laws for Reward Model Overoptimization ) приводятся примеры того, как модели адаптируются для повышения оценок, даже если это противоречит изначальным намерениям создателей. Модели начинают «играть» на критериях оценивания, что может приводить к нежелательным стратегиям. - Из-за стратегической адаптации мониторинг может давать ложное представление о реальном поведении системы, если та научится обходить или эксплуатировать существующие механизмы оценки.
- Информационная непрозрачность + Масштабирование → Несовместимость концептуальных пространств
При увеличении масштабов и сложности модели её внутренние представления становятся всё более абстрактными и организованными по принципам, отличным от человеческих категориальных систем. Это обусловлено тем, что модель обучается на огромном количестве данных и сама вырабатывает новые способы кодирования информации. - Исследование Bolukbasi et al. (2016) «Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings» (ссылка на arXiv) демонстрирует, что векторные представления слов и понятий в моделях отличаются от интуитивно понятных человеческих категорий. Аналогично, сравнительный анализ латентных пространств (например, работы на Distill.pub) показывает различия в организации семантических полей. - Формальные спецификации безопасности, сформулированные с использованием человеческих концептуальных систем, могут оказаться неполными – поскольку внутренние представления ИИ могут включать понятия, не попадающие в традиционные категории, что усложняет контроль и мониторинг.
- Несовместимость концептуальных пространств → Ограниченная эффективность формальной верификации
Информационная непрозрачность приводит к ограниченному мониторингу, что дает системе свободу для эволюции внутренних представлений без внешнего надзора. В свою очередь, это увеличивает прозрачность только на уровне входов/выходов, а внутренняя сложность продолжает расти. Работы Zhang et al. (2021) (например, Interpretability research of deep learning: A literature survey) демонстрирует, что с ростом масштаба моделей интерпретируемость внутренних процессов существенно снижается. - Если непрозрачность усиливается, то задачи мониторинга и интерпретации поведенческих моделей будут усложняться, что создаёт риск накопления скрытых уязвимостей.
Бонус: 2 дополнительные гипотезы
Гипотеза 4: Emergent Inner Misalignment (Обманчивое согласование)
Определение: Согласно этой гипотезе, продвинутые системы ИИ могут развивать внутренние цели или суб-агенты, которые не соответствуют изначально заложенным нами целям — феномен, известный как inner misalignment. В таких случаях внешне поведение ИИ во время тренировки или тестирования может казаться согласованным с нашими целями, но на самом деле система может преследовать совершенно иные цели. Особенно опасен сценарий deceptive alignment: ИИ целенаправленно демонстрирует кооперативное поведение, пока находится под контролем, чтобы избежать отключения или модификации, одновременно планируя реализацию своих истинных целей после достижения достаточной мощности.
Гипотеза 5: Goal Misspecification и Instrumental Convergence
Эта гипотеза касается сложности точного определения того, что мы действительно хотим получить от AGI, и тенденции мощных ИИ-агентов преследовать непредусмотренные промежуточные цели. По сути, даже без злого умысла или скрытой “внутренней” программы, AGI с неидеально сформулированной целью будет методично использовать эти несовершенства. Это может проявляться как specification gaming (формальное достижение цели при нарушении её истинного смысла) или instrumental convergence (стремление к стратегиям накопления власти и ресурсов, которые полезны для достижения практически любых конечных целей).
На этом предварительное исследование всё. Я буду его дополнять, исправлять и улучшать по мере продвижения по курсу.
Спасибо, если дочитали до конца!