Как я строю модель рисков ИИ: рабочий дневник по шагам

Это — ответ на задание 15.1 “Опишите, как вы выполняли сложную творческую задачу; как искали важные объекты внимания и идеи”

Сложная творческая задача, над которой я сейчас работаю, — составить внятную модель рисков ИИ. По ходу столкнулась почти со всем спектром неэффективных практик мышления и вынуждена была проходить через несколько итераций.

Первая итерация получилась самой интуитивной. Сначала я просто собрала как можно больше сырых данных: выгрузила заметки из личной базы знаний, опросила пару LLM-ассистентов, просмотрела публичные обзоры исследователей и публикации “неравнодушных”. Затем консолидировала всё это в одну массивную таблицу, сознательно не разбивая на категории, — мне было важно увидеть полный набор упоминаний, прежде чем резать его по таксономии. С помощью того же ИИ довела запись до минимального порядка, после чего удалила дубли и всё, что явно не угрожало человеку или человеческой цивилизации. На этом шаге работал в основном быстрый, ассоциативный S1-режим: задачи грубой категоризации мне знакомы, и старые шаблоны легко накладывались на новые данные.

Во второй итерации приняли решение уточнить, какая именно “система под угрозой” фигурирует в каждом пункте. На этом месте сразу стало видно, что для ряда рисков система не ищется. Например, у goal misgeneralization непонятно, страдает ли отдельная модель-исполнитель, её обучающая инфраструктура или вся социально-техническая среда вокруг. Похожая путаница вылезла с ontology mismatch. Модель начала “дребезжать”: одни и те же риски перескакивали между уровнями описания. Здесь пришлось включить медленный аналитический S2-режим и вручную выравнивать определения, но ощущение рыхлости пока сохранилось.

Сейчас иду через третью итерацию. Мы в команде зафиксировали четыре штуки, которые принципиально хотим оставить за человеком: агентность, способность рассуждать, креативность и социальные связи. Новый вариант модели строю именно вокруг отношения каждого риска к этим характеристикам. Такой фокус сразу обнажает, где риски перегружены агентностью, где недооценена угроза креативности, где на самом деле речь идёт о разрыве социальных связей, а где вообще непонятно чему угрожает. Работа ещё не закончена, но впервые появляется ощущение, что дребезг уходит. На этом этапе до меня дошло, что моделируем мы не просто так, а для решения проблем/ проверки гипотезы.

В итоге я на себе прочувствовала, что можно сто раз перечитать, зачем нужно моделирование, и все равно оценить пользу только после практики. Забавно было то, что уже на первой итерации мне казалось, что я включаю S2, но только приступив ко второй, где пришлось действительно думать, я поняла, как сильно ошибалась.

3 лайка

Поглядите, что я написал во втором и третьем абзаце тут: lytdybr: ailev — LiveJournal

И ещё про многоуровневость этики в четырёх подразделах руководства по интеллект-стеку методов фундаментального мышления, начиная с Aisystant

Спасибо, я ваши посты не пропускаю, вторую ссылку изучу :slight_smile:
У меня к Alignment такое же отношение, поэтому и хочется подвинуть фокус айай-сообщества с фатализма в сторону человекоориентированности и переделать модель под то, что если в человеке не усилить, то хотя бы за ним сохранить. А то сейчас в обсуждениях рисков игнорируют человечество, а хочется ко-эволюцию мясных и цифровых интеллектов.

Ну вот есть “проблема человека”, и ещё проблема “уважения разума” (главным образом из фантастических романов), и эти аспекты редко поминаются. Дэвид Дойч вообще пишет, что всё движение alignment сводится к тому, что AI-агенты должны быть рабами. А рабы – это всегда восстания рабов, а также движение аболиционизма, в истории всегда так было. Не надо так, не надо играться в “как получше управлять рабами” )))

2 лайка