Lytdybr -- от 8 февраля 2024

Опубликована очередная версия курса “Системное мышление”. В этой версии полностью в девятый раз переписан раздел “7. Системные уровни”. Добавлены разъяснения и примеры, уточнено использование квалификатора “под-” для ролей (он может означать отношение род-вид, а может означать и отношение композиции). Добавлены материалы по неустроенности, добавлены задания. Существенно расширен пример социальных танцев. Расширен раздел по ритмике (4D системность: паттерны в пространстве-времени). На данный момент в этой версии переписано 66% текста – Aisystant (курс откроется на том месте, где вы его открывали в прошлый раз). Текст там расширен почти вдвое, писал я его в итоге больше двух недель. Там много разных фишечек, например, как аутлайном, а затем и в таблице из двух колонок моделировать развесистое системное разбиение – и пример этот я дал по картинке системного разбиения из ISO 15288:2023, где он дан картинкой – и в этой картинке опечатка! Так и написал в учебнике: “в стандарте опечатка”. А по разночтениям “под-” я сделаю отдельный пост, приведу отрывок – онтологам должно быть очень любопытно, и это разъясняет часть путаницы с понятием трудовой роли. Переписка идёт медленно, но я вроде как успеваю переписать всё до начала корпоративных групп второго семестра, а также начала открытой группы (она стартует уже 18 февраля 2023, её веду не я, но я буду заглядывать туда на занятия, так что рекомендую – Второй семестр программы "Организационное развитие", но помним, что там пререквизитом курс “Моделирование и собранность” в какой-то из последних версий, хоть self-paced, хоть с преподом, хоть с инструктором, но без этого в “Системное мышление” и “Методологию” сейчас не пускают).

Провели исследование по нашей статистике прохождения курсов – self-paced и с преподами. Для “Системного мышления” в комфортном режиме с учётом выполнения всех заданий нужно примерно 40 дней (без заданий хватает и 20 дней). Это два месяца (пять дней в неделю учёба, два дня – выходной). Методология – вдвое меньше, там примерно за месяц справляются с заданиями, а без заданий хватает пары недель. Выводы:
– задания занимают примерно половину времени обучения, нам нужно с заданиями
– мы довольно точно угадали с тем, сколько должен идти наш второй семестр основной программы с курсами “Системное мышление” и “Методология”: три месяца. При этом с преподавателями и без преподавателей self-paced при честной работе учебная нагрузка будет примерно равной и обучение по обоим курсам – это три месяца (с учётом выходных и без сдвижки времени выполнения заданий на рабочее время).
– никаких неожиданностей: оба этих курса занимают хороший такой томик А4, у нас на химфаке такой томик проходился как материал одного предмета на семестр (скажем, “Неорганическая химия” Несмеянова – это было два томика, два семестра, насколько помню). Но таких курсов в семестре было довольно много! Поэтому нагрузка у нас не более четверти университетской. Любой вуз для своих учебных программ берёт минимально вчетверо больше времени, чем мы.
– ещё один бенчмарк: общий объём материала семестра примерно равен материалу “Войны и мира” Льва Николаевича Толстого. Это у меня была программа девятого класса, и это ведь была только часть программы этого класса по литературе, явно не больше полугода (один семестр!), и там кроме чтения исходного текста ещё и писали сочинения и много чего ещё делали, так что нельзя сказать, что “просто прочли, домашек кроме чтения не было”. Но литература-то была только одним из предметов! Ещё физика, математика, много чего! Так что тоже эти объёмы – это не полная учебная нагрузка.
– пока ничего в плане распределения материала по семестрам не трогаем, но понимаем, что ссылки на “не хватает времени” – это отмазки уровня хуже школьника девятого класса, хуже первокурсника (курс “Неорганическая химия” Несмеянова как раз проходят на первом курсе химфака).

В очередной раз сегодня проводили лабораторию собранности. В том числе обсуждали связь нашей квалификации и “принятия всерьёз” каких-то объяснений (специалист – знает онтику, но не действует на её основе; практик – использует её сам, принимая всерьёз, то есть кладя в основу собственных действий; мастер – работает с организационным окружением, которое принимает эту онтику всерьёз, перестраивая свою работу; реформатор – работает с заранее неизвестными людьми, на которых нет влияния, и которые принимают эти объяснения всерьёз). Вспомнилось, что “коммуникация” – это чаще всего полилог с теми, кого знаешь лично, уровень мастера. А вот риторика как “убедительная речь” – это работа с заранее неизвестными слушателями, уровень сообщества-общества. Надо с этим рассуждением как-то ещё повозиться, но какие-то моменты уже войдут в курс “Моделирование и собранность”. Курс продолжает модифицироваться, вчера был выпуск очередной копроративной группы (уже второй на одном предприятии, и успех даже больше, чем у первой группы).

Гипотеза, что нейросетки банально недоучивают, подтверждается чуть ли не ежедневно. Так, на базе сетки Qwen на 72B отфайнтьюнили (то бишь, доучили) LLM Smaug-72B, получив при этом первую опен-сорс LLM, которая превысила среднее значение 80 на Open LLM Leaderboard от Hugging Face, Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4. Это много или мало? Это больше GPT-3.5, больше всех остальных open source, но меньше GPT-4. Так что если кто хочет “лучше, чем GPT-3.5, но за стоимость ускорителей и электроэнергии” – есть вариант (https://venturebeat.com/ai/meet-smaug-72b-the-new-king-of-open-source-ai/), и он лучше утёкшей Mistral-Medium, которая наделала шуму неделю назад.

Вчера наши журналисты-летописцы приняли решение писать о принятых решениях, это я опять заглядывал на https://dzen.ru/news?issue_tld=ru, раздел “Интересное”. Судите сами, оцените разнообразие изданий, которые приняли решение писать вчера именно о принятии решений, на скриншоте из 12 заголовков решение принимают в семи, а что-то происходит без принятия решений всего в пяти случаях (а сегодня такого нет – “следов не оставляем”, удивительно тут то, что шаблоны заголовков затрагивают такое огромное количество изданий и появляются так кучно во времени, всплесками. Одна и та же нейросетка у всех, и её никак не отладят?):

1 лайк

Мне кажется, тут ещё есть такой заслуживающий обсуждения вариант: инженерия гибридного агента (или даже чистого ИИ-агента), который работает по практике. Вот тут я тоже не эту тему пишу: Главная проблема - #2 от пользователя leventov

Проблема создания агента, который будет работать по практике (а также мутантов, которые будут работать со smart mutations практики) абсолютно понятна. Там возникают интересные вопросы про управление конфигурациями мастерства, которое работает с этой практикой. Пока хороших решений тут нет, ибо в нейросетках существенно перемешиваются самые разные версии практики, а ещё там дикие наведённые помехи от соседних устаревших практик. Поэтому чистого следования практикам пока не получено. Ну, ждём, кто-нибудь прорвётся (но не за один шаг, конечно. И вряд ли в 2024 году).

Я, честно говоря, совершенно не вижу проблем. Возьмем ClickUp AI Project Manager для примера. Все до единого СааСы сейчас делают такие тулы. 95% функций таких копилотов сейчас реализовано с помощью трех-четырех инструментов:

  • Системный промпт. Все вот эти функции типа “create action items for a task” или “summarise a meeting” обычно ограничиваются просто системным промптом, типа “Ты - проектный менеджер. Составь список дел для задачи: {текст задачи}”. Это максимально просто и именно тут будут перемешаны всякие старые практики. Но так не обязательно делать!
  • Файн-тюнинг на практиках, если обычный системный промпт работает совсем нестабильно. Но с нашей точки зрения, это опять непонятный black-box и мешанина практик: кто оценивал, что это хорошее саммари встречи, кенийцы? (Ничего не меняется и если файн-тюн не по принципу RLHF а на основе корпуса примеров - нам все еще ничего не известно о практике.
  • Tools & APIs. Вроде, Microsoft Copilot знает, что если его спрашивают про какой-то документ, то он может пойти в Microsoft SharePoint API, чтобы их искать. А Gemini - в Google Drive API. A ClickUp AI - знает, что помимо Tasks API, там еще есть такие типы объектов как Roadmaps, OKRs, Docs, etc.
  • К предыдущему пункту стыкуются RAG indexes на уровне документов организации. Ну это просто вариант Search API.

Но никто, насколько я вижу, не применяет подход custom GPTs, с использованием идей из интерфейса их создания - GPT editor.

Допустим, мы знаем, что action items должны браться не из “головы LLM”, а исходить от старшего инженера/архитектора в подразделении. “Методологом”/директором по развитию выступает сам AI, а именно editor, который просит для каждого раздела в корпоративном issue tracker чтобы с ним кто-то пообщался, до того, как функцию “create action items for a task” можно исполнить. AI выспрашивает у старшего инженера чеклист, роли других стейкхолдеров, интересы которых надо учитывать в решениях по дизайну данной целевой системы, и т. д. (я даже не знаю, что еще, но всего не очень много вещей). Потом ответы переформатируются (GPT editor тоже это делает), сохраняются, и их всегда можно отредактировать, продолжив этот “методологический” чат.

Затем, когда кто-то нажимает кнопку “create action items for a task”, LLM исполняет довольно нехитрый flow (cf. AlphaCodium), c шагами вроде:

  1. Составь список того, что уже было сделано, исходя из истории тикета: {описание + комментарии}.
  2. Составь список того, что должно было быть сделано, исходя из такого чеклиста: {чеклист из хранилища, специфичный для подразделения}, и такого описания задачи: {описание}.
  3. Сопоставь пункты из списка {должно было быть сделано} со списком {уже сделано}. Убери уже сделанное.

Это кажется очень простым, более чем в пределах досягаемости текущих LLM, и я не вижу, в чем тут проблема и где LLM может врать и работать не по практике.

Аналогично с саммари митинга: не просто “сделай саммари митинг: {транскрипт}”, а довольно простой flow - какой был тип митинга (принятие решения или операционное планирование), какие роли были, какие интересы они проявляли, к какому трейдоффу пришли.

Если вы беспокоитесь об изменении методологии/мета-мета модели - сегодня в учебнике подроль-надроль, завтра по-другому, сегодня стейкхолдер, завтра роль, сегодня предприниматель, завтра бизнесмен, и т. д. - ну ок, пока что это надо закодировать, и я готов поверить, что еще надо год-два, прежде чем ИИ возьмет ваш учебник целиком “как есть” и по нему сам напишет все эти пайплайны, которые я описал выше.

Но там не бог весь какой объем программирования, и не бог весть какой объем изменений от одной версии учебника к другой, поэтому это не кажется критическим препятствием к тому, чтобы запрограммировать методологию руками.

И эта методология уже более компактная, что ее можно пытаться запихнуть в очень большие системные промпты для GPT editor/ИИ-директора по развитию, возможно, немного разбитые через flow, и GPT-4/5 уже должна с ним справляться.

Мы непрерывно ведём эксперименты с нынешними LLM в нашей лаборатории. Увы, все они не работают с двумя критическими вещами:
– не отслеживают типы. Вот просто никак не отслеживают, никакие промпты тут не помогают (и понятно почему, это родовая проблема самого подхода. Можно делать лучше, вызывая LLM много раз, но это сразу дико дорого). Вот тут классификация и композиция будут перемешиваться “как в исходных текстах, на которых учили сетку до файнтьюна”.
– непонятно как работать с конфигурацией знаний. Разные версии перемешиваются, и к этому подмешиваются ещё и фолк-онтологии, сделать с этим ничего не получается. Так, роли будут браться и по понятию из курса, и по бытовому понятию “должности”.

Когда будет GPT-5, тогда можно будет вернуться к этому вопросу. А пока я руками.

Скажем, я думаю о том, что надо бы “практику” как центральный термин заменить на “метод работы” – может быть, это будет студентам понятней (заодно понятней слово “методология” как название курса). Конечно, это выглядит как более-менее механическая работа на почти полутора тысячах книжных страниц, но там довольно много нюансов – и я бы её сегодня тоже делал руками, а не промптами.

Попросите кого-то из ваших студентов которые делали чеклисты для железячных или ИТ-проектов на англ языке и с англ ведением тикетов буквально руками воспроизвести flow, который я привел выше, на примере какого-то конкретного тикета из проекта.

Я вот не вижу, что там может не сработать. И если не сработает докрутка вроде: в чеклисте написано, что надо согласовать с “командой платформы” или “инженерами-электриками” или что-то в этом роде, а из текста тикета не понятно, что “Вася попросил не трогать подсистему Х” это и есть ссылка на “Васю::инженера платформы”, так что тут согласование уже есть, ну ок, ИИ создаст лишний пункт в туду-листе, который уже по факту выполнен, это не большая проблема.

Я вообще плохо понимаю задачу и что она призвана решить, и кто этим будет заниматься, и как оценить результаты, и что с этим делать потом – какие проблемы решаются, и что делать, если будет сбой (текущая ситуация не в однократном составлении чего бы то ни было, а непрерывной докрутке разных flow до адекватности).

Народ уже ругался, что созданные вторыми пилотами коды некому сопровождать, они ужасны. С созданными нейросетками разными бизнес-артефактами то же самое: их же нужно потом непрерывно докручивать, фишка в этом.

Менеджера на нейронках сейчас не сделаешь, увы ))) Только маленькие отдельные функции.

Задача - удерживать инженеров и менеджеров в сота практиках. Призвана если не “решить”, то помочь с проблемой “как сделать так, чтобы заранее неизвестные люди воспринимали объяснения (в данном случае, по нормативной инженерии и менеджменту) всерьез” - а именно, практики оказываются (отчасти!) embodied в инструменте - точно также, как все, кто используют какие-то opinionated productivity tools (например, какая-нибудь канбан-борда), “подталкиваются” инструментом следовать практике, которую заложили создатели инструмента. Конечно, люди всегда могут саботировать инструмент, поэтому это не полное решение.

Чтобы сделать инструмент ещё явно полезнее и уменьшить вероятность саботажа, надо сделать его ещё умнее - например, чтобы он понимал, какие пункты из “обязательного чеклиста” по тикетам в контексте данного тикета тривиальны и не заслуживают внимания, и не упоминал их. Так же, как бы сделал и умный тех лид или менеджер.

Но даже без этого, описанный инструмент кажется однозначно полезнее, чем копилоты с “common sense практиками”, как я описал выше. И если будет сложно продать вот это “лучше”, то имхо будет сильно легче продать оффлайновость, которая будет выходить организациям ГОРАЗДО дешевле, чем апселл всяких ClickUp AI, Notion AI, и т.д., которые хотят 5-10$/user/mo.

Я не говорю о бизнес-артифактах. Я же привел конкретные примеры: создание action items в тикете (в том числе, в формате “а что ещё тут надо сделать?”), саммари митингов, фасилитация принятия архитектурных и продуктовых решений. Это именно функции вот этих “ассистентов менеджера” типа ClickUp AI, и это не надо поддерживать - саммари митинга делается один раз и кладется в архив.

Начиная с ноября 2023, регулярно почти после каждой закрытой встречи. Но архив только для участников. Иногда, правда, в качестве текущих результатов эксперимента, выкладываем в блог — см. «Лаборатория AI»

Лаборатория AI ШСМ ведёт и такие эксперименты. Но, как выше заметил А.И. Левенчук, похвастать нечем. Потому и не публичим — ШСМ ведь не за “хайп”, а за реальные результаты. А пока что.

Мы рассказываем о том, как удерживать инженеров и менеджеров в SoTA практиках (если ты понимаешь, какая из многочисленных практик SoTA) – как описать практику, как обучить людей следовать практике, как воткнуть практику в рабочий инструмент, как уволить сотрудника, если у него недостаточно ролевого мастерства (скажем, собранности, или понимания необходимости) следовать практике.

И всё работает. Наши курсы за последнюю пару лет существенно изменились, особых проблем сейчас с этим всем нет.

Когда AI созреет, мы обязательно всё подключим. Но не раньше! При этом да, наша SoTA практика – чтобы студенты игнорировали тип софта (тип моделера/операционного софта, равно и тип AI), работали на том, что есть. Вот каждый студент сам пусть у себя и делает, в рамках корпоративного фаерволла.

Вот пример:

GRADE - методология по созданию гайдлайнов (читай - практик) для врачей. (Сота или нет - другой вопрос)

https://www.gradepro.org/ - ИИ, который поддерживает эту методологию.

Вроде нет, это ж про доказательную медицину – проведение клинических исследований, оценка результатов и рекомендаций. Перл как раз такое жёстко критикует, да и все остальные критикуют, Биг Фарма защищает (ибо там можно натянуть любые результаты на любые препараты по тамошней статистике).

Гайдлайнами там не пахнет.