Опубликована очередная версия “Системной инженерии”. В этой версии переписан полностью раздел “3. Инженерный процесс” (тем самым переписано примерно 58% содержания). Даны понятия концепции использования и концепции системы, уточнены роли основных участников инженерного процесса, обсуждены тренды системной инженерии и разобран подробно отказ от требований. В этом кусочке есть цитата про отказ от понятия “требования” в SpaceX (хотя там и не так радикально пока, как я прописываю в курсе): At SpaceX, external-facing hard constraints requiring full V&V are still called requirements, used in interactions with entities like NASA/DoD. However, lower-level internal requirements aren’t labeled as requirements; they’re termed design criteria. Why the different terminology? It’s all about psychology. Let’s face it, “requirements” can carry negative connotations among engineers. The term implies rigid constraints that are seen as commandments that can’t be scrutinised or changed. И там, конечно, ссылка на источник. Чтитать эти новые 58% содержания тут: Aisystant.
Вчера провёл первую двухчасовую тренировку на пять человек по программе, объявленной в тексте “Тренировка “Вы пойдёте к топ-менеджеру?” или “Барышня-мадам””, Тренировка "Вы пойдёте к топ-менеджеру?" или "Барышня-мадам".: ailev — LiveJournal. Двадцать минут на моё вводное слово, затем двадцать минут каждому из пятерых. За двадцать минут каждый получил свой инсайт, паттерн рассуждения был продемонстрирован пять раз. Обсуждались производство корпусной мебели в длинной цепочке поставок, торговля частями частного домовладения (типа кровли, которая не шумит от дождя, или навесного фасада, под которым нет плесени), потоки лекарств через аптеки (ERP), пожилые здоровые люди в медицинском страховании, потоки дров и досок (ERP) – удивительно, рассуждение везде было одно и то же, а не хватало, как выразился один из участников в кулуарах, “не особых знаний из курсов, а мышления, и из лекций это трудно понять, можно понять только в таких разговорах о проектах”. Теперь думаю, что делать дальше, ибо формат, вроде успешен. Или делать 10 человек в группе и проводить в тренировке 4 часа (близко к режиму наших занятий), или так и оставить пятерых на два часа – и вести такое раз в неделю (это 250 тренировок в год, если по одной тренировке на нос – это 250 человек, не бог весть какие масштабы, плохо масштабируемо, тем не менее). При этом готовим списки и других проблем (не только первый шаг мантры системного мышления, как на этой вчерашней тренировке), на которых застревают студенты. Будут ведь и другие темы тренировок, и необязательно эти тренировки должен вести я. Сможет ли вести такую тренировку AI? В ближайший год – сомневаюсь, а там посмотрим.
У меня во всех лентах обсуждается выход GPT-4.5, ибо и впрямь что-то странное: все характеристики очень похожи на характеристики предыдущего поколения, которое обучалось x10 меньше. Стало ли лучше? Маргинально: в каких-то задачах да, в каких-то – нет. По сравнениям людей в большой статистике предпочтения ответа GPT-4.5 ответам других сеток очень незначительные, и даже галлюцинирует эта сетка меньше, но не меньше других моделей OpenAI. Сотрудники OpenAI туманно говорят, что “лучше в тех аспектах, которые трудно измерить”, скажем, отсутствие галлюцинаций по фактическим знаниям о мире. От общего тона обсуждений остаётся впечатление, что “подняли гуманитарные способности, ответы чуть больше будут нравиться гуманитариям, а технарские способности ниже SoTA – ожидаем, что там что-то будет в reasoning режиме”. Но по тестам строгих рассуждений там ниже, чем DeepSeek V3, тоже “без ризонинга”. Очень, очень странное событие – выход этой модели с такими характеристиками. Сам я последнее время пользуюсь Gemini 2.0 Pro Experimental и Grok 3 – а ответами ChatGPT я как-то чаще недоволен, чем доволен. Ну ладно, конкуренция – великое дело, всё только начинается. Интересный вопрос про то, как добиться умности – учить подольше исходную модель или дать побольше времени на рассуждения. Вот несколько свежих материалов об этом:
– на русском из сиолошной: Telegram: Contact @seeallochnaya “условная o3, построенная на GPT-4o, может генерировать цепочки рассуждений в 50 раз длиннее, что условно равно увеличению мощностей на тренировку в 40 раз (цифры из головы). А поскольку GPT-4.5 тренировалась всего лишь в 15-20 раз больше, то получается, что ризонер на модели прошлого поколения как бы лучше
— однако эти цифры перемножаются, и ризонер на основе новой модели <должен быть> существенно лучше. Если модель ошибается реже на каждом шаге, то все мощности будут уходить в правильное русло, а не на исправление ошибок”
– [2502.15631] The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer, We systematically analyze chain-of-thought length across o1-mini and o3-mini variants on the Omni-MATH benchmark, finding that o3-mini (m) achieves superior accuracy without requiring longer reasoning chains than o1-mini. Moreover, we show that accuracy generally declines as reasoning chains grow across all models and compute settings, even when controlling for difficulty of the questions. This accuracy drop is significantly smaller in more proficient models, suggesting that new generations of reasoning models use test-time compute more effectively. Finally, we highlight that while o3-mini (h) achieves a marginal accuracy gain over o3-mini (m), it does so by allocating substantially more reasoning tokens across all problems, even the ones that o3-mini (m) can already solve.
– [2411.18071] Simulating Tabular Datasets through LLMs to Rapidly Explore Hypotheses about Real-World Entities, тут попытка быстрой проверки гипотез: просят LLM оценить верность гипотезы (оценивает, точность низка), затем просят просимулировать феномен и сгенерировать табличку этого моделирования (“побольше порассуждать” что там происходит). По табличке с данными берут корреляцию – и она оказывается точнее, чем просто ответ на вопрос о корреляции! Это явно не CoT, но явно удлинение времени размышления.
– [2502.20339] Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners, попытка загнать reasoning в mamba с её высокой эффективностью и низкой точностью, а затем дать побольше времени на reasoning, чтобы перегнать трансформер по точности на том же вычислительном бюджете: can models with lower complexity leverage their superior generation throughput to outperform similarly sized Transformers for a fixed computational budget? To address this question and overcome the lack of strong subquadratic reasoners, we distill pure and hybrid Mamba models from pretrained Transformers. Trained on only 8 billion tokens, our distilled models show strong performance and scaling on mathematical reasoning datasets while being much faster at inference for large batches and long sequences. Despite the zero-shot performance hit due to distillation, both pure and hybrid Mamba models can scale their coverage and accuracy performance past their Transformer teacher models under fixed time budgets, opening a new direction for scaling inference compute.
– [2502.16965] Autoregressive Image Generation Guided by Chains of Thought, попытка загнать CoT в autoregression image generation, которая обычно хуже генерирует, чем диффузионные модели. И впрямь, CoT поднимает качество: autoregressive Image Generation with Thoughtful Reasoning (IGTR), Compared to the autoregressive method without prompts, our method shows outstanding performance and achieves an approximate improvement of 20%. Но если заглянуть внутрь — таки диффузию не догнали (сравнимые, даже чуть-чуть хуже, характеристики при вдвое большем числе параметров), но в авторегрессионных моделях они ого-го. Это подтверждает мысль, что исходной модели надо быть умной, глупой модели добавка reasoning помогает очень существенно, но не так сильно, чтобы перегнать более умную модель. Усидчивостью перегнать талантливых в общем случае не удастся. Если кошечка будет долго-долго думать, хоть и всю жизнь, она стишок не сочинит.
– Inception Labs. Вот тут наоборот — диффузия для генерации кода, вдесятеро быстрее, но менее точна, чем чемпионы — Inception Labs.
– … тысячи этих работ, про test time compute против компьюта обучения не думает только ленивый. Вот даже я думаю. У меня ведь те же проблемы: учить студентов дольше, или просто заставлять их дольше думать в своих проектах (но ведь мы тоже хотим экономить test time compute – за счёт того, что один раз потратим время на обучение, а потом много раз сэкономим на размышлениях)? Я обычно сильно удивляюсь, когда узнаю, сколько времени люди делают качественные продукты. Кажется, что хорошо обученные гении должны делать всё быстро – но нет, у них test time compute тоже будь здоров! Жизнь показывает, что и учатся как можно лучше/дольше, и потом времени на подумать берут тоже побольше. И дальше лидируют в рейтингах.
Я думаю, всё это закончится многослойными архитектурами, вот статья теории про эту скорость-точность в управлении, “Towards a Theory of Control Architecture: A quantitative framework for layered multi-rate control”, [2401.15185] Towards a Theory of Control Architecture: A quantitative framework for layered multi-rate control, а картинку из этой работы я приводил в конце предыдущего поста (lytdybr: ailev — LiveJournal) – пешком передвигаться можно точно к месту назначения, но медленно, на самолёте – очень неточно, но очень быстро, автобус – не так быстро как на самолёте, но быстрее чем пешком, но не так неточно, как на самолёте, но не так точно, как пешком. А как надо? Вот так и надо: многослойное действие (пешком-автобус-самолёт-автобус-пешком). Вот тут эта многослойность управления и две нейронки уже есть: — медленный слой работает на 7-9Hz, быстрый — 20Hz, архитектура разная (7B VLM и 80М transformer), Helix: A Vision-Language-Action Model for Generalist Humanoid Control. Такое должно не только в роботах появляться, но и везде во взаимодействии AI-систем с окружением, хоть и не физическими. Диалог — как раз пример такого взаимодействия. Вот картинка:
Как такая многослойная архитектура “умных медленных” и “поглупее, но итерирующих быстро” нейросетей, упакованных в антропоморфное тело выглядит в работе – вот видео: https://www.youtube.com/watch?v=f6ChFc8eUuo). Армия клонов, ага.