Образованные агенты: что если платформа, которая учит людей, научит и ИИ?

Образованные агенты: что если платформа, которая учит людей, научит и ИИ?

Вчера я написал пост о том, что ИИ-модель — не агент и не специалист, а скорее выпускник с общими знаниями. Сегодня продолжение: а что если мы можем дать ИИ-агенту образование? Не просто подкинуть документы в контекст, а по-настоящему научить мыслить корректно.


Четыре ступени образования ИИ-агента

Когда вы открываете ChatGPT или Claude и начинаете разговор, перед вами — агент с общими знаниями. Он знает много обо всём, но не знает ничего о вашей конкретной ситуации. Его можно сравнить с выпускником хорошей школы: грамотный, начитанный, но без специализации.

Чтобы агент стал по-настоящему полезным, ему нужно пройти четыре ступени — точно так же, как человеку.

Первая ступень — базовые способности. Anthropic, OpenAI или Google создают систему: серверы, модель, API. Агент умеет читать, писать, рассуждать. Это уровень выпускника школы — способности есть, образования пока нет.

Вторая ступень — методологическая грамотность. Человек идёт в вуз и учится думать: различать понятия, строить аргументы, проверять корректность суждений. Это не знание конкретной области — это умение работать с любой областью. В нашей терминологии это нулевые и первые принципы (ZP и FPF): что такое система, что такое описание, чем роль отличается от исполнителя, чем уровень от контура.

Именно этого ИИ-агентам сегодня не хватает. Они не различают систему и описание системы. Не понимают, что «процесс» и «сервис» — полисемичные термины. Путают характеристику и принцип. Предлагают «красивые» решения, которые онтологически некорректны.

Третья ступень — знание предметной области. Человек приходит на работу и погружается в специфику: терминология компании, процессы, история решений. Для ИИ-агента это доменные знания — описания предметных областей, которые ему подаются в контекст при каждом запуске. Он не «выучил» их — он каждый раз «перечитывает справочник».

Четвёртая ступень — конкретная задача. Руководитель ставит задачу сотруднику. Пользователь пишет промпт агенту. Чем точнее задача — тем точнее результат.


Проблема: вторая ступень отсутствует

Посмотрите на эти четыре ступени. Первую обеспечивает провайдер модели (Anthropic, OpenAI). Третью и четвёртую обеспечивает пользователь — через контекст и промпты.

А вторая? Кто учит агента думать корректно?

Сейчас — никто. Когда пользователь открывает Claude и просит помочь с архитектурой, агент не знает, что «уровень» и «контур» — разные понятия. Не знает, что рабочий продукт — это артефакт, а не процесс. Не знает, что характеристика — это цель (что измеряем), а принцип — это средство (как достигаем).

Пользователь может подать эти принципы в контекст — через файлы инструкций, базы знаний, MCP-серверы. Но это как сотрудник, который каждое утро перечитывает учебник перед работой. Работает, но:

  • Контекстное окно ограничено — не все принципы помещаются
  • В длинной сессии агент «забывает» принципы
  • Каждый новый пользователь должен организовать это сам

Решение: fine-tuning на принципах

Fine-tuning — это изменение «весов» модели на обучающих данных. Принципы перестают быть «справочником на столе» и становятся частью мышления агента.

Чтобы fine-tuning работал, нужны обучающие данные: примеры правильного и неправильного применения принципов. И здесь раскрывается уникальность ситуации: принципы формализованы. У каждого различения из ZP есть чёткая граница правильного и неправильного. Это означает, что обучающие данные можно сгенерировать.

Как это работает:

Берём одно различение — например, «система это не описание системы». Подаём его ИИ-модели и просим сгенерировать 20 разных ситуаций: кто-то называет документацию «системой», кто-то путает чертёж двигателя с самим двигателем, кто-то считает, что модель машинного обучения (файл с весами) — это работающий агент. Для каждой ситуации генерируется правильный ответ — где агент замечает ошибку и корректно различает понятия.

30 ячеек ZP, по 20 вариаций на каждую — 600 обучающих примеров. Добавляем FPF — ещё несколько сотен. Этого достаточно для первого fine-tuning.

Более того: у нас уже есть готовый верификатор — бот-тренажёр. Он уже умеет проверять ответы по ZP. Сгенерировал примеры, прогнал через тренажёр, отсеял некачественные — получил чистый датасет.


Что получается

Платформа, которая уже обучает людей принципам мышления, начинает обучать и ИИ-агентов. Результат — образованный агент: модель, которая «из коробки» владеет корректным мышлением.

Такой агент не путает роль и исполнителя. Не предлагает назвать рабочий продукт процессом. Не смешивает систему и её описание. Не нужно каждый раз подавать ему принципы в контекст — они уже часть его мышления.

Для пользователя это означает: он получает не «выпускника школы», которого нужно учить с нуля, а «выпускника вуза», которому достаточно рассказать о своей предметной области.

Что Кто обеспечивает Аналогия
Базовые способности Anthropic, OpenAI, Google Выпускник школы
Методологическая грамотность (ZP, FPF) Платформа (fine-tuning) Выпускник вуза
Знание предметной области Пользователь (контекст, MCP) Специалист в должности
Конкретная задача Пользователь (промпт) Специалист с заданием

Почему это важно за пределами одной платформы

Сегодня все говорят об ИИ-агентах. Компании соревнуются в том, чья модель «умнее». Но ум без образования — это способность без направления.

Ни одна другая образовательная платформа не имеет формализованных принципов мышления в виде, пригодном для fine-tuning. Принципы корректного мышления — это уникальный актив, который можно конвертировать в обученных агентов.

Anthropic создаёт способного выпускника школы. Мы можем сделать из него методологически грамотного специалиста. А пользователь доводит до эксперта в своей области.

Образовательная платформа, которая выпускает не только образованных людей, но и образованных агентов — это следующий шаг.