Lytdybr

ailev · 21.Июнь.2025 21:51:00

Провёл некоторое время за изучением вариантов инструментария для AI-поддержки не большого объёма кода, а большого объёма технической документации (наши Руководства тут больше похожи на регламенты, ибо надо блюсти терминологию и точность языка) на русском: проверки противоречивости, составление концептуальных навигаторов (ха, это не я придумал, но об этом позже), переводы на разные языки. Ключевое у меня было -- это работа с парочкой (как минимум) моделей. Смотрел несколько вариантов: -- as is: браузерные родные чатовые интерфейсы, а между ними cut/paste. Никакой автоматизации, зато полная гибкость. И если бы надёжно работал контекст в 10М, а также следование инструкциям, то вообще можно никуда не вылезать из чата и "вайбписать с голоса". Вот на этом варианте я и сижу-пробую работать, экспериментирую. -- писательские специализированные системы. Они дохлы, терминологию не удерживают, пригодны для текстов до 50Кзнаков (статьи да, книги -- только художественные). Поэтому вычеркнул из рассмотрения. -- системы кастомизации моделей, вроде GPTs и AI Studio Гугля. Сразу хорошо так платно (у меня ж там прорва токенов! Это ж целые книги!) и каждый из них хорош для работы с одной моделью, а мне надо с двумя-тремя. -- MS Word (ибо текущие версии я готовлю в Ворде: поддержка лучшего на сегодняшний день воркфлоу и скорости дексктопной работы) с плагинами вроде https://gptforwork.com/. Выглядит сразу, как у всё у Майкрософта: дорого-богато (а я дорого-богато не готов платить). Настройка под конкретный воркфлоу (скажем, пара моделей) через VBA, но не факт, что это можно хорошо кастомизировать. Там есть и плагины, например, от ChatGPT, но это только одна модель. Поэтому в эту сторону и не смотрю. -- Obsidian как хранилище текстов (промптов и результатов, в том числе промежуточных) в markdown + браузерные родные чатовые интерфейсы LLM. Тут же появляется необходимость в vibe coding (а дальше это будет расти в нормальное программирование), и я поразвлекался: поставил FireFox-плагин выгрузки произвольного места из выдач LLM на markdown, а также поставил плагин Templater в Obsidian и навайбкодил шаблон, который расставляет литературу для выгруженного из ChatGPT-search фрагмента. А потом навайбкодил шаблон преобразования чата Gemini в Markdown (это оказалась не такая простая задача). Конечно, это всё программки по нескольку десятков строк, но они уместны -- и я их сочинил и настроил (но кодировала -- нежить), в любом случае у меня они теперь работают и приносят пользу. В Obsidian есть AI-плагины разной степени навороченности, "как у всех", дальше обвязка скриптами "по потребности" (скажем, разбивка текста на кусочки для каких-нибудь проходов в цикле с удержанием контекста). Вайб-кодирование "зоопарка" вполне возможно, но оно превращается через некоторое время в большую программную разработку IWE (https://ailev.livejournal.com/1515735.html), на выходе которой что-то типа "кастомизированного под писательство Cursor". На это я совершенно не готов идти. Но в работе с текущими LLM в их браузерных UI мне всё равно нужна память и кое-какая автоматизация. Вот это я могу делать на Obsidian, и делаю это. Vault у меня прямо в Яндекс.диске стоит, поэтому я тамошними файлами могу быстро делиться (очень оказалась полезная функция). Собственно, этот Vault можно посадить потом на GitHub-GitLab, тоже неплохо. -- собственно, Cursor, в котором вроде бы всё с контекстом хорошо, но главным образом для кода, а на русскоязычных текстах это всё подразваливается и очень всё проприетари. Но главное -- основная тамошняя автоматизация при смене в одной части текста таки незаметно меняет другие части, например, может заменить термин на синоним, и это будет не лучший синоним. В коде это проверится, что "результат не будет меняться, тесты пройдут", а в текстах (особенно русскоязычных, а Cursor работает со старыми модельками OpenAI в своей "автоматизации", они не очень по-русски, я проверял) -- не заметишь. Поэтому on hold, ждём пока там разовьётся.

Сегодня видел, как обстоятельная реплика одного из участников чата была обозвана как "чувствуются следы LLM", хотя там LLM не было! С другой стороны, LLM с инструментальной обвеской (типа поиска и памяти предыдущих разговоров для поднастройки) настолько продвинулись, что к концу года я уже ожидаю обратного: если текста не касалась LLM, то "незачёт, у тебя там вполне могут быть твои личные галлюцинации, пусть AI проверит". Ну, и со входящими сообщениями будет то же самое. Люди уже шутят, что в онлайн-встречах участвуют уже не только живые люди, но и виртуальные конспектирующие помощники, а не реальные люди. Общение с окружающим миром тем самым будет идти главным образом через AI-экзокортекс, так и вспоминаешь горгулий из "Лавины" Нила Стефенсона с их экзокортексом, а это ведь аж 1992 год! И горгульи были изгоями общества ("нет своего мозга, торговцы сырыми данными, потеряли себя"), а дальше в фантастике этот сюжет экзокортекса развивался – и это стало уже нормой, всем уже понятно, что от этого не уйдёшь. Вот я попросил o3 сделать справочку по развитию сюжета "горгулий" из Лавины (а системный промпт там у меня стоит, чтобы давать справочки по источникам после 2015 года): ChatGPT - Горгульи в фантастике. Прошло 33 года – и вот тебе, 4E (embodied, extended, embedded и enactive) cognition/познание-мышление, которое идёт в сторону "вынесения мозга" за пределы черепа, при этом сегодняшний вариант пока с неинвазивным интерфейсом (телефон, хороший такой десктоп с экраном 43" и механической клавиатурой), не надо носить на себе 40кг аппаратуры и вставлять чипы в мозг, но всё то же самое. И те же проблемы: ты ли это, или с учётом 4E уже не совсем ты? Вспоминается Friston, который любит рассказывать, что трушный агент не уверен по поводу границ своего тела, а тело понимает с учётом 4E как всё то, на что он может существенно влиять – а на что не может, то уже среда/окружение/environment. А поскольку мир и сам агент изменчивы, то ничего не остаётся, как всё время зондировать этот мир, ощупывать, осматривать, пытаясь сделать в нём хоть что-то – просто чтобы обновить модель "себя в мире", где там сейчас проходит граница. Так что переломный момент: если до сегодняшнего дня было неприлично использовать LLM или давать ссылки на выдачу, то где-то с сегодняшнего дня (последние топовые версии, доступные где-то с июня 2025) уже уместно. Вот и я – даю ссылку на литературу в этом абзаце, ведущую на вопрос-ответ с ChatGPT, а не на какой-то определённый первоисточник (а уж там внутри ссылки на первоисточники, это ж был поисковый запрос с просьбой дать резюме).

На данный момент Gemini 2.5 Pro в AI Studio бесплатна в варианте браузерного UI, имеет режим thinking и контекстное окно в 1М токенов, что выгодно отличает эту топовую модель от её конкурентов. В OpenAI из топовых моделей 1М контекстное окно есть ещё у GPT-4.1, но там ещё и "исключительно высокое следование инструкциям", а также нет режима thinking. Поэтому там чтение руководства не даёт такого уж большого эффекта, а без thinking ещё и галлюцинации. Основная там у всех проблема – это резкая деградация качества ответов по мере роста чата. Если даёшь переписать три абзаца – на выходе один абзац "переписанного". Если у тебя список был из 20 понятий, то на выходе - 15, а на вопрос "куда оно усохло" ответ "ну, там похожие были, я объединил. А ещё надо быть лаконичным, я сократил". Так что удержание внимания и памяти промптингом – это и есть наш главный prompt engineering. С остальным потихоньку разбираемся, но главный приём тут – пригласить в команду экспертной панели роли, знакомые с интеллект-стеком (логика, онтолога, эпистемолога и т.д.), а учёному секретарю дать в его искусственные зубы точную инструкцию. Дальше надо отслеживать, чтобы нежить работала пошагово, а ей на каждом шаге давать промпты типа "Продолжай по одному объекту из нового их списка, следуй строго инструкции" иногда заменяя его на "Приведи план очередного шага работы с учётом инструкции. Какие объекты надо будет обработать?" (объёкт, конечно, надо специфицировать. Скажем, у меня объект – это понятие). Контекст контекстом, но там внутри очень жёсткие ограничения на число выдаваемых токенов, и если выдача чуть больше этого ограничения, то неестественный интеллект банально сократит весь хвост из, например, 10Кзнаков в пару предложений. Если понимать, что тут никакие промпты не помогут, то будет всё в порядке. Ну, и инструкция остаётся слишком далеко от начала диалога, её банально забывают (там какое-то скользящее окно "реального контекста"), поэтому рекомендуется напоминать. Результаты? Я смог получить весьма позитивный опыт от работы Gemini 2.5 Pro над моим же Руководством по системному мышлению. Вот только два примера, они обсуждаются в чате по программе рабочего развития инженеров-менеджеров (перед тем, как входить в чат, проверьте, что у вас есть телеграмный username, который через @ указывается в вашем профиле телеграма. Если этого имени нет, то спамодавка вас тут же забанит):
– Telegram: View @systemsthinking_course, даю там ссылки на эксперимент, где я задал несколько простейших вопросов (насколько в Руководстве новая версия системного мышления, какие достоинства, какие недостатки, есть ли варианты освоить системное мышление мимо этого руководства). Ответы там такие, что хоть прямо их публикуй в разделе "хвастаемся тем, что у нас есть, рекомендуем для развития уже развитых".
– Telegram: View @systemsthinking_course, и тут результаты эксперимента поинтересней: я хотел проверить, действительно ли читатели моих руководств умнеют, даже если они сами - AI. Я хотел сдаться на уговоры и составить наконец-то глоссарий по системному мышлению, поэтому поэкспериментировал немного и составил промпт для глоссария (причём в руководствах проверил — он таки работает!). Но потом я загрузил текст руководства и добавил "Надо составить глоссарий для Руководства. Вот инструкция для экспертной панели. Предложи её улучшение, исходя из характера и стиля Руководства". Дальше смотрите, что получилось: Gemini отказалась делать глоссарий, предложила вариант с навигатором понятий. А когда я предложил пройтись сверху вниз по всему тексту, опять-таки отказалась и предложила agile процедуру: "сначала по всему тексту возьмём важнейшие понятия, и только потом — все". В итоге у меня есть какой-то "навигатор понятий", который с одной стороны весьма проблематичен содержательно, но который уже может служить макетом для обсуждения желаемого формата, прототипом для ручного редактирования, основой для постов в блоге, и т.д. То есть польза – однозначна! Заодно в этом тексте я даю ссылки на .pdf текущей версии всех руководств, чтобы сообщество мастерской инженеров-менеджеров могло делать собственные эксперименты. Главный из этих экспериментов – это брать Руководство, а затем задавать вопросы по собственному рабочему проекту, задавая достаточный для ответа контекст, но с опорой на методы мышления руководства. Конечно, чтобы проверять работу LLM, надо и самому знать содержание загружаемых руководств! А вопросы задавать не по улучшению самих руководств (это мой рабочий проект), а по собственным рабочим проектам, это полезнее.
– Telegram: View @systemsthinking_course, это я таки начал генерировать понятийный навигатор/guide по руководству/guide по системному мышлению. Пишу про останов по выходу за пределы 1М дозволенных в одном чате токенов, но уже нагенерировано по 8 разделам Руководства справочки по 52 понятиям, ещё и комментарии даны, восстанавливающие логику изложения по разделам. Конечно, много диких ошибок, но с этим уже можно работать, навайбкоденный шаблон перевёл эти все результаты в markdown, оно всё в Obsidian лежит и готово к редактированию. Так, можно сосредоточиться и довести это до конца (преодолеть ограничение в 1М токенов), а затем вручную отредактировать "заблуждения" (впрочем, можно и тут сэкономить: первый проход редактирования тоже пусть сделает нежить). И будет тот самый "глоссарий", о котором тут все раз в месяц поднимают разговор. Загляните туда, дайте комментарии.

Ещё одна всплывшая тема – это неизбежность "галлюцинаций" у нейросеток. Мой тезис в том, что с людьми ровно то же самое. При этом политкорректно говорить, что люди не выдумывают/галлюцинируют, а заблуждаются, у них misconception, неправильная концептуализация. Поэтому людей надо из их заблуждения вывести. Мой пойнт в том, что и AI надо не ругать, а вывести из заблуждения. Но дальше упираемся в недообразованность (неумении нежити думать), что решается претренингом и RL разного вида — и вот эта недообразованность к нам и поступает, и нам "базовое образование" нежити недоступно ввиду запретительно высокой цены самой процедуры и закрытости топовых моделей. Поэтому нам доступно только попытки "чуть-чуть доучить" через prompt-как-manual в результате исследования, об этом писал в lytdybr: ailev — LiveJournal. Чем и занимаемся: наши инженеры-менеджеры, которые проходят стажировки с наставниками, все нам сообщают, что стали лучше срабатывать и с людьми, и с нежитью — после освоения методов мышления из наших руководств. Лучше дают промпты, в том числе "дообучают" этими промптами: и людей, и нежить.

На этой неделе одна из главных новостей – это речь Karpathy про Software 3.0 (Andrej Karpathy on Software 3.0: Software in the Age of AI) — и сейчас во всех отслеживаемых мной лентах это любимая тема. Про Software 3.0 в наших Руководствах уже несколько лет как рассказывается, "мы занимались этим ещё тогда, когда это не было модным". Ведь эти мысли гугляли давно (я же их не выдумал!), поэтому я их и вписал. Но я при вписывании пошёл дальше Karpathy, у меня ведь и Software 4.0 в тексте Руководств уже есть, это когда AI не решает поставленную ему "с голоса" задачу, а сам ставит задачу, которую важнее всего решать. И Engineering соответствующих версий в Руководстве по системной инженерии тоже есть — переход от software engineering к инженерии вообще. Так что ни буквы менять нам в Руководствах не надо, наоборот — у нас подробней про это всё, чем у Karpathy. В том числе распространение этой идеи на роботов через constructor theory (обобщение computer science на физику, а в инструментарии — компьютеров на инструментарий работы с физическим миром). Всё уже есть в Руководствах! Надо только сосредоточиться и освоить тамошний материал.

Ещё одна обсуждаемая новость – это переименование JuliaSim в Dyad, окончательный отход от древней Modelica, вот пост об этом: Dyad: A New Language to Make Hardware Engineering as Fast as Software. Я об этом ходе писал давно, вот текст ещё 2021 года с объяснениями (и были тексты ещё раньше) — Цифровые двойники: физика ведёт математику, математика ведёт компьютерную науку: ailev — LiveJournal, и там описаны причины: особые требования к компилятору, если ты решаешь задачу не в терминах ODE, а в терминах DAE (и в посте красивые картинки, иллюстрирующие разницу). Что это даёт? Переход от каузального моделирования физических процессов к акаузальному (не путайте с казуальным и аказуальным!). The term "acausal modeling" is used because it refers to a modeling approach that doesn't explicitly define the direction of causality between variables. Instead of focusing on "input" and "output" relationships like in traditional causal modeling, acausal modeling focuses on describing the relationships between variables through equations that represent physical laws or component behavior. Там не AI-магия, но таки да, магия, требующая в том числе и работы с компилятором. Но вроде справились, Modelica тоже была такой же: код графический и тексты были эквивалентны. Программисты работали с текстом, инженерам "с улицы" демонстрировали красивые картинки – без картинок инженеры отказывались принимать "за своих", считали математиками. А математики – это не физики, у них отрыв от реальности! Я на реальных заводах организовывал моделирование на Modelica, пришлось когда-то разбираться и с сутью дела, и с человеческим отношением. Как это решают в Dyad? Акаузальное моделирование они называют "декларативным программированием", это для популярности – вытащили из нафталина старый расплывчатый забытый термин. Главное тут было – это сказать, что "нет строго прописываемой последовательности вычислений, просто подкладываете одно за другим уравнение в систему уравнений (или целые группы уравнений, если у вас библиотеки готовых описаний из какого-то раздела физики, например, электрические цепи или оптика), а как их решать – это уж машина сама определит, вы скажите, что решать". И ещё надо было удоволетворить вот эту страсть к картинкам: декларировали, что картинки и текст будут 1:1. А скорость? Вы из языка описания систем DAE уравнений Dyad имеете прямую компиляцию в скоростную Julia. В словах маркетинг, да. Но всё это отлично работает, там реальные идеи.

На картинке роботы пишут мне руководство по инженерии личности, пока я пишу этот пост.