У меня теперь следующие крупные проекты на ближайшее время, все они связаны с задействованием AI "по тяжёлой", современные июньские модели (вроде o3 и Gemini 2.5 Pro) уже дают больше пользы, чем отвлекают от работы на "интересненькое": -- инструментальные (обустроить свою работу, плотник следит за своим рубанком). Тут две задачи: регламентация виртуальной команды и её создателя-организатора ("наши системные" промпты) и автоматизация: настройка workflow на инструментарии (писал про варианты тут в первом абзаце -- https://ailev.livejournal.com/1768555.html). -- короткие формы уже сделанного по рабочей программе (понятийный минимум сисмыш прежде всего, методологии вторым). Это дальше можно дать людям, страстно желающим "глоссария", но это ещё и можно пробовать засунуть в промпты (это ж своего рода дистилляция, вместо 222К токенов для системного мышления там получается примерно 70К, и уже можно жить на 1М контекстном окне). Конечно, учебность для людей при этом исчезает: ни тебе interleaving, ни spaced repetitions, ни развёрнутых примеров, ни развёрнутых объяснений ошибок. -- USF и FUSO: формальные основания системного мышления (ход к интеллек-стеку) на русском и английском, и там отдельно создание связного текста, а отдельно -- выполнение намеченной там программы исследований (скажем, несколько программ формализации в разных степенях градиента формализации) -- переписка руководства по инженерии личности -- переписка руководства по системному менеджменту
В регламентации LLM (промптах-как-регламентах, идея "при заблуждениях – доучивать промптами", писал в пятом абзаце lytdybr: ailev — LiveJournal и ранее prompt-как-manual/guide в lytdybr: ailev — LiveJournal), и тут bootstrapping/раскрутка – заставляем неестественный интеллект себя усиливать:
– надо использовать понимание методологии: большинство промптов – задание метода работы. Или они про стратегирование, или про регламентацию и обоснования успешности (например, чеклисты).
– специфика LLM: общетекстовая часть как борьба с архитектурно вмазанной в чат-агенты диалоговостью (delta-bias: changelog вместо выдачи полных текстов), борьба с "усыханием" как экономией токенов при любой возможности (тоже встроено в архитектуру, учёт малости контекстного окна предыдущих моделей, оно до сих пор проявляется), борьба с мета-высказываниями в тексте (это онтологическая штука, забывание про "четвёртую стену" в театральной пьесе), автономность текста (убираем неявные ссылки на контекст: например, использование понятий, которые заведомо неизвестны читателям будущего текста, неважно, нежить это, или не нежить). Несколько раз спонтанно удавалось вывести LLM на саморефлексию и обсуждение своих же архитектурных затыков (после чего волшебно всё на некоторое время налаживалось), надо научиться это делать не спонтанно, а произвольно.
– промпты для поумнения: наши руководства и/или понятийные минимумы (прокси/дистилляты руководств) как системный промпт "поумнения", виртуальное разделение труда: организация панели со спецами из интеллект-стека (логик, онтолог, семантик и т.д.).
– собственно, предметные промпты с их нарезкой на куски работы: промпт на написание и улучшение того же "нашего системного промпта", на написание и улучшение понятийного минимума.
– реплики в диалоге с учётом "вспоминания"
Почему с AI нельзя делать демонстрации в реальном времени (удивительно, ко мне поступило несколько просьб продемонстрировать мою работу с AI в реальном времени: на семинаре, в подкасте, на встрече лаборатории AI):
– время ответа LLM в наших задачах довольно велико, полторы минуты думает, потом ещё минуту всё это оформляет-выводит. Это медленно для демонстрации, зрители воспринимают как "застывший экран, всё подвисло", энергия разговора уходит.
– это дрессировка животного: не факт, что будет работать, как задумано. Там же галлюцинации, а попытка в реальном времени разобраться, что там произошло и объяснить содержательно – она будет уводить от темы разговора.
– самое важное тут промпты, их лучше изучать, когда ничего не мелькает на экране. Наблюдение за потоками токенов не раскрывает стратегию prompt-craft’а, выбора источников, критериев валидации.
– нет типового варианта работы (всё типовое сразу уходит в автоматизацию, поэтому работа – в исследованиях на самые разные темы), так что просьба звучит или как "покажи, как за пять минут ты выигрываешь шахматный турнир из 20 партий", вариант того же самого: "покажи, как ты получаешь нобелевку – у нас в прямом эфире". Суть в длинной работе, а не моментах работы с интерфейсами инструментов AI.
– внешний вид человека, который говорит по телефону, ничего не скажет о его разговорах. Внешний вид того, что мелькает на экране в ходе работы с AI-агентами ничего не скажет о том, что там происходит.
– Один-два показанных диалогов формируют ошибочное впечатление, будто AI-workflow – это серия волшебных коротких запросов, а не длинный рабочий цикл. Это как в ответ на вопрос "как вы готовите борщ? покажите!" показать пример: нарезка лука или картина варящегося полуфабриката. Это не даст ровно никакого представления о том, что же такое "готовить борщ" и что для этого надо уметь делать.
– демонстрации в таких быстроизменяющихся областях мгновенно устаревают, с выходом каждой новой модели AI-агентов приёмы работы меняются, walkthrough тут будет так же устаревать и будет так же несопровождаем, как любые видеокурсы: чтобы улучшить-поменять там какую-то деталь, надо будет переделывать вообще всё.
– попытка сделать так, чтобы всё сработало красиво, даёт попытку подобрать какой-то пример, который наверняка будет оторван от реальных "грязных" ситуаций в работе, это контрпродуктивно для обучения аудитории реальным ошибкам и циклам доработки.
– … итого: полезны тут будут только асинхронные формы, и даже мелькающая запись скринкаста с остановками для объяснений и вырезками пауз даст мало пользы. Ближайшее приближение – это слайды с объяснениями голосом (форма семинара), но лучше таки текст руководства, где слайды будут только иллюстрациями.
