Лучшие в мире ИИ-модели справляются меньше чем с половиной задач, которые рядовой айтишник в крупной фирме закрывает за обычный рабочий день. Это не моя оценка, это свежий бенчмарк Artificial Analysis и IBM. Они собрали 59 реальных задач корпоративного ИТ, тех самых, что приходят в тикетах инженерам инфраструктуры и ребятам на дежурстве, и прогнали через передовые модели. Лучшая в замере набрала 47 процентов. Остальные ниже. И это передовые модели на свете, а не средние. Это диагноз, а не сенсация.
Странность в том, что параллельно в новостях те же модели «обгоняют человека на математической олимпиаде», «сдают экзамен на адвоката», «решают задачи школьного уровня лучше, чем выпускник». Можно подумать, мы живём в момент, когда машина уже умнее нас по всем фронтам человеческих знаний. Но почему она на корпоративном бенчмарке спотыкается на простых вещах.
Скептики все еще говорят, что ИИ не дотягивают до человека, что модели глупы. Однако ответ в том, что ИИ не понимает контекст, в который его привели. Та же модель в чате блестяще отвечает на абстрактный вопрос про сети, и она же в живой задаче упирается в то, чего никто ей не объяснил: какая у вас сеть, кто чем владеет, какие правила в этом конкретном месте, что вчера сломалось и почему именно так.
Я долго искал хорошую аналогию для этой разницы. Сначала ходил вокруг противопоставления «таксист и механик». Но это неточно: они вообще делают разные вещи, и сравнение получается так себе, всё равно что говорить «ваш помощник не умеет варить кофе». Хорошая аналогия должна быть в одной плоскости: один и тот же навык, разный охват. Когда я об этом подумал, всплыл другой образ. Таксист и личный водитель.
Две стороны одной услуги
Возьмите два полюса одной услуги: довезти куда нужно. С одной стороны такси: вы садитесь, называете адрес, вас везут. Знает ли таксист, к кому вы едете и почему опаздываете? Не знает и не должен. Поездка разовая, контекст обнуляется на выходе. Хотите заново поехать — начинаете всё заново. С другой стороны персональный водитель: он знает расписание сына, в какую школу робототехники его отвезли в среду и субботу, что у бабушки лестница без лифта и нужна помощь с пакетами, что в багажнике нельзя оставлять собаку с пакетом из «Перекрёстка», что в пятницу вы летите и заранее надо в аэропорт. Один и тот же физический навык вождения, но абсолютно разные миры. Различие не в том, кто водит лучше. А в том, кто знает твою жизнь.
Так вот, любой чат-ИИ в браузере, ChatGPT, Claude, неважно: это такси. Очень умное, дорогое, иногда сразу прокатит вас до нужной точки по идеальной траектории. Но за каждую поездку вы заново сообщаете адрес назначения, причём весь: что у вас за бизнес, какие фамилии важны, какие у вас правила, что вы обсуждали вчера, какие договорённости с подрядчиками, что внутри вашей команды считается само собой разумеющимся, а что под запретом. Без этого даже лучшая модель выдаёт средний ответ на ваш конкретный вопрос. Бенчмарк IBM это и поймал. Убрали школьные задачи, оставили конкретную офисную работу с её невидимыми правилами, и красивые цифры сложились. Все ведь в моменте не расскажешь, люди годами потребляют контекст и знают многие детали и тонкости своих бизнес-процессов.
Вторая граница, которую видно не сразу
Это первая ось, контекст. Но есть и вторая, которую видно не сразу. Хороший персональный водитель не только знает ваш мир, он ещё и звонит первым. «Дождь начался, забрать сына раньше?» «Вы три дня не звонили маме, могу заехать с цветами по пути.» «На завтра я поставил ТО, потому что вы улетаете в командировку.» Такси не позвонит. Оно ждёт, пока его вызовут. И в этом ещё одна слабость чат-ИИ: он реагирует, но не инициирует. Умеет ответить, но не умеет напомнить. Отличный собеседник, но никакой сопровождающий.
Получается, разница между «обычным ИИ» и «персональной средой» проходит по двум осям. Первая: знает ли он, кто я и что вокруг меня. Вторая: будет ли он действовать, когда я не прошу. Если обе оси убраны в ноль, у вас умное такси. Если обе подняты на максимум, у вас кто-то, кто живёт вашим расписанием и полным контекстом в целом. По имени я называю это интеллектуальной рабочей средой или IWE. По сути это персональный водитель в мире жизни, работы, саморазвития.
Что это значит на практике
Я строю IWE именно по этой логике с начала 2026. Не очередного умного бота или универсального агента. А среду, в которой ИИ перестаёт быть такси. Каждое утро в четыре часа агент-стратег проходит по моим репозиториям, собирает вчерашнюю активность, сверяется с планом недели и формирует план дня к моменту, когда я открою ноутбук. Я к этому не прикасаюсь. К десяти утра у меня готовый шорт-лист задач, отмечены просроченные обещания, в верхней строке висит то, что я обещал коллеге в среду и почти забыл. Это и есть второй полюс той же оси. Не «помоги мне с задачей», а «вот твоя задача, я её уже подготовил».
Сегодня в IWE живут несколько десятков первых волонтёров, не считая меня. У каждого свой репозиторий, свой набор знаний, свой контекст. Когда они открывают чат с ИИ, это уже не голый чат. Это диалог с агентом, который видит их Pack знаний (хранилище знаний по предметной области), помнит их историю задач, может посмотреть, что они делали неделю назад, и сам предлагает следующий шаг. Никто из них не наберёт лучшую цифру на математической олимпиаде. Им это не нужно. Им нужен водитель, который знает, куда они едут сегодня и планируют завтра.
Так что вопрос не в том, какая модель умнее, и не в том, обгонит ли она человека на очередном тесте. Вопрос в том, на каком ты с ней расстоянии. У такси одно расстояние, у личного водителя другое. И второе требует не более умной модели, а собранной среды вокруг неё. Иначе вы так и будете каждый раз садиться в машину, называть адрес и заново объяснять, кто вы. Да, и успешные предприниматели не выиграют олимпиад, им этого не нужно.
Источник: Artificial Analysis × IBM, ITBench-AA: первый бенчмарк агентных задач корпоративного ИТ (SRE), май 2026 — https://huggingface.co/blog/ibm-research/itbench-aa.

