Что было бы, если бы: причинность и реализуемость (про льзя и нельзя) уже в FPF

Очередное отвлечение от семиотики, но без него уже нельзя: причинность и реализуемость
Перед тем, как продолжить с семиотикой, я провёл большую (на 17 затронутых паттернов) кампанию по

Если говорить без акцента на исследования, а с акцентом на работу, то это обычные инженерно-менеджерские вопросы любого рабочего проекта: мы что-то поменяли в работе, увидели новый результат и теперь хотим убедиться, что это именно наша мера дала эффект, а не “просто так получилось”. Если причина тут наша предпринятая мера – это можно тиражировать, можно на этом основании менять бюджет, регламент, график, подрядчика или архитектуру. Если “так сложилось”, и причиной результата оказались не наши изменения, а что-то другое, то нельзя ни тиражировать, ни требовать на это бюджет, ни менять регламент, график, подрядчика или архитектуру. Если у нас что-то пошло не так, то причиной вряд ли будет кошка, перебежавшая нам дорогу, хотя довольно много людей будут убеждены, что виновата именно кошка.

Это была не семиотическая кампания про слово/знак “причина”, это кампания про собственно причинность. Это не кампания выпуска паттернов про то, как красиво и осторожно писать отчёты про причинность и воображение (контрфактичность – это же задействование воображения). Документы, конечно, важны: именно в записи, презентации, плане, отчёте аудита или тексте решения инженера, менеджера, аудитора или ответственного за изменение работы причинный вывод документируется и дальше начинает управлять агентами: людьми и не совсем людьми. Главный вопрос паттернов кампании не в тексте, а в действии: что команда собирается делать на основании рассуждений о причинах и следствиях.

В рабочем проекте заметили, что после задействования нового метода входного контроля сырья (неважно: производственного сырья или каких-то “сырых данных”) рекламаций на выпускаемый продукт стало поступать меньше. Почему? Просто совпадение с применением нового метода, эффект какой-то другой меры, удачное окно во времени (например, какая-то “сезонность”), другая партия сырья с другими свойствами, изменение состава заказов, более толерантные заказчики? Перевели людей на другой график, и травматизм снизился. Что именно сработало: график, новый мастер, другой объём работ, меньше ночных смен, накопленный эффект обучения, менее усталые люди перестали калечиться, другое помещение при другом графике? Запустили AI-помощника, и цикл подготовки документа стал длиннее. Это эффект инструмента, эффект отбора более сложных задач, эффект нового процесса и проявление закона Амдаля, эффект внимания руководителя и выросшее число проверок или просто первый неудачный замер, а дальше наладится?

Такие вопросы не решаются семиотически. Тут нужна нормальная дисциплина “одомашненной причинности” (Pearl вводит понятие deep_understanding/глубокое_понимание и описывает происходящее с причинным выводом как “одомашнивание”: дикие нерешаемые раньше проблемы объяснений становятся сегодня домашними и не страшными – Causal Analysis in Theory and Practice » The Domestication of Causal Reasoning): какой именно эффект оцениваем, какая мера была применена для получения эффекта, с чем сравниваем полученный эффект, какие альтернативные объяснения не опровергнуты, какие данные вообще можно получить в текущей ситуации, где результат только прикидочный из неоткалиброванной модели, а где уже можно принимать обоснованное решение на основании данных по замерам.

Главный паттерн кампании: C.28 - CausalUse-CAL: Causal-Use Questions, Causality-Ladder Rungs, Identification and Realizability
Центральный новый паттерн называется C.28 CausalUse-CAL (CAL – это от calculus, речь об исчислении как онтологии и правилах рассуждения). Этот паттерн для помощи в проблемных ситуациях (problem frame), когда в проекте появляется рабочий причинный вывод (causal inference). Он помогает не перепутать четыре понятия:

  • наблюдаемую связь/корреляцию/ассоциацию (что видим): “после изменения показатель стал другим”;
  • эффект принятой меры (эффект вмешательства/intervention, что делаем): “изменение показателя вызвано вот этим вмешательством”;
  • контрфактический вопрос (что воображаем, работа воображения/imagination в возможных мирах): “что было бы, если бы мы сделали иначе”;
  • допустимое управленческое действие: “по этому выводу уже можно менять работу”. Это мы уже от рассуждений идём в действие, принимаем решение (ход на паттерн C.11 по принятию решений).

Паттерн C.28 заставляет связать причинный вывод с принятием решения и последующим действием на его основе. Можно ли по этому одному успешному результату масштабировать новый экспериментальный рабочий процесс (workflow) на всю организацию? Можно ли менять одну норму на другую? Можно ли выбирать вариант A вместо B (неважно чего вариант, важно, что он на что-то влияет – общая постановка вопроса)? Можно ли писать, что процесс стал справедливее (да, ход на этику тут тоже есть, в паттерн D.5)? Можно ли утверждать, что предпринятая мера (intervention) предотвратила ущерб, или зря потратились, ущерба бы и так не было? Можно ли использовать результаты имитационного моделирования (simulation) как основание для инженерных и менеджерских решений, или это пока только прикидки, “разведка”, далёкие от реальности исследования теоретиков?

В этом месте появляется вторая важная половина кампании: реализуемость/realisability (совершенно не случайно это -ость/-ility, звучит как архитектурная характеристика). В инженерной работе очень легко сказать “посмотрим, что было бы, если бы…”. Но иногда это “посмотрим” (вообразим! посмотрим на результат своей фантазии!) можно проверить математически допустимой процедурой (посмотрим, сколько времени будет лететь килограммовая гиря, брошенная с нулевой скоростью с Пизанской башни), иногда можно такое “посмотрим” только грубо оценить при сильных допущениях, а иногда это вообще красивая модельная чисто теоретическая история без права на принятие по ней решения по ситуации в жизни. Контрфактическая реализуемость здесь означает возможность добыть нужные данные физически, организационно, этически (да, даже так). Льзя или нельзя, вот в чём вопрос.

Это особенно важно для цифровых двойников, имитационных моделей, интуитивных (в том числе полученных LLM или мировой моделью) оценок, сравнений методов по их результативности, этических аудитов, управленческих экспериментов. Модель может быть полезной, но результат прогона модели ещё не является фактом реального мира. Выявление вероятностного распределения нейросетевой моделью может быть сильным ходом, но выявленный закон распределения вероятности ещё не автоматически закрывает каждый вопрос “что было бы, если бы”. Хорошее описание метода проведения тестирования/испытаний помогает думать об этих испытаниях, но описание метода ещё не делает данные испытаний собранными (а для их сбора надо ещё эти испытания провести).

Каузальность и реализуемость в наших руководствах и в рабочих проектах
В наших руководствах по рабочему развитию тема этого паттерна C.28 (там, кстати, порядка 70K знаков) и его выходы в принятие решений (C.11) даются главным образом в резидентуре “R4. Причинность, интервенции и контрфактичность в инженерии и менеджменте – 6 недель”: создание объяснений, чтобы картина мира была связной и не приходилось угадывать. Там начинают с событий и вероятностей и строят рассуждения по лестнице причинности Дж. Перла: ассоциация, интервенция, контрфактическое суждение. Осваивают причинные графы: узлы-события и направленные связи. Учатся формулировать гипотезы, проверять их на данных и проектировать интервенции с учетом ограничений. Находят кусочки исследовательской деятельности в любой работе — от академической карьеры исследователя до построения бизнеса. Затрагивают темы принятия решений в неопределенности. И всё это теперь поддержано FPF.

Представим главного инженера, который хочет менять регламент обслуживания станков. После пробного применения нового регламента простои сократились. Старый лёгкий ход, “не включаем мозг”: написать “новый регламент снизил простои”, дальше распространить новый регламент на все площадки. Новый ход через C.28: назвать действие в регламенте, которое ведёт к снижению простоев, провести справедливое сравнение (равенство временных окон, бюджетов и т.д.), характеризовать оцениваемый эффект так, чтобы он был измерим, проверить, что ещё могло повлиять, отделить общий наблюдаемый результат от эффекта именно этой меры/интервенции, сказать, годится ли для решения о масштабировании нового регламента сделанный причинный вывод, или уверенности пока нет. Возможно, регламент действительно сработал. Возможно, сработала команда пробного проекта, которая что-то там чинила умелыми руками “не по регламенту, а по жизни”. Возможно, надо ещё один эксперимент с другим участком. Но C.28 отловит красивую фразу “новый регламент снизил простои” и вежливо спросит “как вы это узнали?”: эпистемологический вопрос, вопрос исследователя, “откуда взялось ваше знание? просто показалось, или что понадёжнее?”.

Поменяли порядок обработки заявок, среднее время восстановления вроде бы сократилось. Можно ли сразу менять SLA и обещать клиентам новый срок? Не факт, что можно. Сначала надо понять, что именно улучшилось, что повлияло на время, у каких именно заявок всё и впредь будет OK, в каком окне времени (и ночью тоже?), с каким составом бригад, какой ценой (и кто заплатит!), при каком объёме входящего потока заявок. Если улучшение сохраняется только для узкого класса заявок, обещание клиентам для всего потока заявок будет ложным.

В инженерной работе текст часто выглядит вторичным, если речь не идёт о тексте “проекта”. В жизни всё жёстче и менее явно: “проектность” часто не называют “проектностью” – делают какие-то выводы, а затем эти выводы попадают не как явные “проектные решения”, а как “описание чистой правды, не придумали, а вот честно верим в истинность” в приказ или поручение/задачу, план, стандарт, отчёт, договор с подрядчиком, презентацию для руководства, они становятся частью управления. Люди и компьютеры начинают по ним действовать – независимо от того, насколько они фантазийны. “Мне кажется, что будет лучше” – и ровно вот это потом подписывает начальник, и дальше становится “хотели как лучше, а получилось как всегда”. Паттерны кампании как раз пытаются с этим разобраться. FPF работает через “мышление письмом”: не потому, что нас интересует “разговор о причинности”, “как вы записываете ваши мысли”, а потому что тексты, таблицы и прочие “авторские единицы” являются местом, где причинный вывод вдруг, отслеживаемо или неотслеживаемо, превращается в право на действие. Если в документе написано “эта мера снизила аварийность”, то дальше это может поменять график смен. Если написано “модель показала лучший вариант”, это может двинуть бюджет. Если написано “процесс стал справедливее”, это может закрыть или открыть спор о людях. И вот тут надо не “писать осторожнее”, а делать что-то по-другому, собирать другие данные и решать проблемы в жизни, а не переписывать текст на более осторожные формулировки. Но об этом надо знать, новые паттерны FPF про это. В FPF теперь стало труднее:

  • выдать корреляцию за причинный эффект;
  • выдать эффект действия по какому-то методу за ответ на контрфактический вопрос “что было бы, если бы”;
  • выдать расчёт на основании модели как надёжное основание для решения;
  • выдать сравнение несопоставимых способов работы за честный выбор лучшего;
  • выдать красивую историю после факта за реальную “проверку жизнью”.

17 паттернов этой кампании
Один новый паттерн сам по себе не спасает, ибо причинные выводы расползаются по соседним паттернам. Затронут не только новый C.28. В кампании обновлены A.2.4, A.3.2, A.6, A.10, A.15, B.3, C.11, C.16, C.19, C.24, C.26, C.27, D.5, G.5, G.9, G.11 и точки входа (таблица J.4). Это важно: причинность не живёт в одном аккуратном углу FPF. Она цепляет измерения, методы, доверие, выбор, сравнение, справедливость, темпоральную адекватность и использование моделей в рассуждениях:

  • паттерны инженерных обоснований (assurance и evidence) стали строже различать “мы знаем, откуда взялись данные” и “у нас есть основание для сильного вывода об эффекте”. Это разное: происхождения данных ещё не говорит о причине эффекта.
  • паттерны сравнения (comparator) и выбора стали аккуратнее: нельзя честно выбирать между способами работы, если один способ даёт только наблюдаемую ассоциацию (корреляционную связь) каких-то характеристик эффекта, другой оценивается как результат вмешательства/интервенции, третий способ оценивается по ответу на контрфактический вопрос. Это не одно соревнование, сравнение несправедливо.
  • паттерн про утверждения о характеристиках во времени (C.27) получил стоп-сигнал: “после того” ещё не значит “вследствие того” (“после” не значит “из-за”, если говорить попроще и не вспоминать Юма). Рост, спад какой-то характеристики, ускорение, задержка, инерция и ритм в процессах важны, но поведение чего бы то ни было во времени само по себе не доказывает действие какой-то причины на какое-то следствие. Мы только что сделали C.27 в предыдущей кампании, Темпоральная адекватность утверждений (temporal claims adequacy) — уже в FPF: ailev — ЖЖ, и вот опять правим – “бесконечное развитие”, развиваем уже развитое!
  • … и там такого много, например, была зацеплена справедливость (нет одного показателя или одного критерия справедливости, и если смотреть на причины выводов о справедливости, то надо ещё договориться о том, что именно там причины и какие у этих причин “справедливые” следствия), разделы про сравнения/бенчмарки стали осторожней к разным силам вывода – если один метод отвечает по оценке своих эффектов на более слабый вопрос, а другой на более сильный, их нельзя без пояснений класть в одну таблицу сравнения как равных участников забега. И так далее, всех поправок не перечислишь, их очень много. Причинность всё-таки существенно первопринципна.

Типовые промпты ко каузальности и реализуемости
Вот такими промптами можно теперь обращаться к FPF в рабочих проектах (добавляйте, что надо “говорить на русском так, как говорят инженеры-менеджеры, не использовать FPF-сленг”, но это по вкусу):

  • Проверь это утверждение по C.28: [текст].
  • Мы хотим на основании результатов пробного проекта тиражировать метод: [описание ситуации]. Назови меру, сравнение, оцениваемый эффект, альтернативные объяснения, поддержанное использование и неподдержанное использование.
  • Показатель X улучшился после изменения рабочего процесса (регламент процесса у тебя в приложенном файле). Можно ли честно говорить, что изменение процесса дало эффект?
  • Вот результаты моделирования [прилагаются]. Модель показывает, что вариант B дал бы лучший результат. Можно ли на этом основании менять план, или это пока только догадки? Чего ещё не хватает, чтобы надёжно принять решение?
  • Если этот твой вывод пойдёт в решение о бюджете как обоснование причины, что обязательно ещё должно быть явно сказано?
  • Где в этом тексте надо заменить сильное “предотвратило”, “вызвало”, “обеспечило” на более слабую формулировку, а где можно оставить сильный вывод?
  • … пишите ваши собственные промпты тут комментах.

Эти промпты не про семиотику, не “как лучше сказать”, они про саму суть работы. По ним надо принимать решения, откладывать принятие решений, запускать дополнительные проверки, менять сравнения, ограничивать область применения или честно ослаблять вывод по какой-то ситуации.

А ещё у меня надежда, что специально промпт писать не надо, C.28 сам себя найдёт в нужной ситуации!

counterfactuals

3 лайка