Как я строю модель рисков ИИ: рабочий дневник по шагам

Это — ответ на задание 15.1 “Опишите, как вы выполняли сложную творческую задачу; как искали важные объекты внимания и идеи”

Сложная творческая задача, над которой я сейчас работаю, — составить внятную модель рисков ИИ. По ходу столкнулась почти со всем спектром неэффективных практик мышления и вынуждена была проходить через несколько итераций.

Первая итерация получилась самой интуитивной. Сначала я просто собрала как можно больше сырых данных: выгрузила заметки из личной базы знаний, опросила пару LLM-ассистентов, просмотрела публичные обзоры исследователей и публикации “неравнодушных”. Затем консолидировала всё это в одну массивную таблицу, сознательно не разбивая на категории, — мне было важно увидеть полный набор упоминаний, прежде чем резать его по таксономии. С помощью того же ИИ довела запись до минимального порядка, после чего удалила дубли и всё, что явно не угрожало человеку или человеческой цивилизации. На этом шаге работал в основном быстрый, ассоциативный S1-режим: задачи грубой категоризации мне знакомы, и старые шаблоны легко накладывались на новые данные.

Во второй итерации приняли решение уточнить, какая именно “система под угрозой” фигурирует в каждом пункте. На этом месте сразу стало видно, что для ряда рисков система не ищется. Например, у goal misgeneralization непонятно, страдает ли отдельная модель-исполнитель, её обучающая инфраструктура или вся социально-техническая среда вокруг. Похожая путаница вылезла с ontology mismatch. Модель начала “дребезжать”: одни и те же риски перескакивали между уровнями описания. Здесь пришлось включить медленный аналитический S2-режим и вручную выравнивать определения, но ощущение рыхлости пока сохранилось.

Сейчас иду через третью итерацию. Мы в команде зафиксировали четыре штуки, которые принципиально хотим оставить за человеком: агентность, способность рассуждать, креативность и социальные связи. Новый вариант модели строю именно вокруг отношения каждого риска к этим характеристикам. Такой фокус сразу обнажает, где риски перегружены агентностью, где недооценена угроза креативности, где на самом деле речь идёт о разрыве социальных связей, а где вообще непонятно чему угрожает. Работа ещё не закончена, но впервые появляется ощущение, что дребезг уходит. На этом этапе до меня дошло, что моделируем мы не просто так, а для решения проблем/ проверки гипотезы.

В итоге я на себе прочувствовала, что можно сто раз перечитать, зачем нужно моделирование, и все равно оценить пользу только после практики. Забавно было то, что уже на первой итерации мне казалось, что я включаю S2, но только приступив ко второй, где пришлось действительно думать, я поняла, как сильно ошибалась.

3 лайка

Поглядите, что я написал во втором и третьем абзаце тут: lytdybr: ailev — ЖЖ

И ещё про многоуровневость этики в четырёх подразделах руководства по интеллект-стеку методов фундаментального мышления, начиная с Aisystant

Спасибо, я ваши посты не пропускаю, вторую ссылку изучу :slight_smile:
У меня к Alignment такое же отношение, поэтому и хочется подвинуть фокус айай-сообщества с фатализма в сторону человекоориентированности и переделать модель под то, что если в человеке не усилить, то хотя бы за ним сохранить. А то сейчас в обсуждениях рисков игнорируют человечество, а хочется ко-эволюцию мясных и цифровых интеллектов.

Ну вот есть “проблема человека”, и ещё проблема “уважения разума” (главным образом из фантастических романов), и эти аспекты редко поминаются. Дэвид Дойч вообще пишет, что всё движение alignment сводится к тому, что AI-агенты должны быть рабами. А рабы – это всегда восстания рабов, а также движение аболиционизма, в истории всегда так было. Не надо так, не надо играться в “как получше управлять рабами” )))

2 лайка

Отличный результат, Екатерина!
Задача и вправду сложная. Готовьтесь сразу к десятку итераций как к “необходимому минимуму”)
Вам почти наверняка придется перекапывать даже не только и не столько текущие метаобзоры и прочее, сколько читать книжки фантастов, если искать именно “большие проблемы в safety”. Нужна догадка, которая получается в ходе озарения (как говорил Фейнман, ни одно открытие не было сделано при помощи рекомбинации имеющихся фактов).
Или – можно заняться для начала решением более очевидных проблем, “низко висящими фруктами”: низким качеством выдаваемых AI-агентами без тщательного присмотра результатов. Те какая там (не)безопасность, ИИ-агенты рискуют стать со временем тупее, а не умнее – потому что вслед за большинством людей будут полагаться на сгенерированные ими ранее тексты (в куче которых будут дикие ошибки, массово скопированные людьми). “Пятикратно переваренный кал” и все такое.
Чтобы представлять хоть какую-то угрозу человеку, ИИ-агент должен хотя бы не тупеть со временем :upside_down_face:

1 лайк