Всё новое в методологию приходит сбоку

Можно ли отследить прогресс в AI?
Я отслеживаю прогресс с AI по нескольким линиям, если вообще можно говорить о таких “линиях отслеживания”. Поскольку речь идёт о xGI, то есть интеллекте неважно какой природы, то надо сразу проверять, осмысленно ли говорить про AI как об отдельной технологии/методе с его предметной областью. Это ж как сказать “я отслеживаю, что там происходит у людей с их интеллектом сразу по нескольким линиям”, а поскольку интеллект вездесущ, то это всё равно как сказать: “отслеживаю развитие цивилизации”. Собственно, “все LLM делают это” (там даже дата этого отслеживания пишется, когда заканчиваются данные “обо всём”, по которым учили ту или иную версию нейросети". Это, конечно, тупик – хотя самолёты устроены и не совсем как птицы, особенно если им дать реактивный двигатель, а уж когда кроме топлива на борту окислитель, то им даже воздух для полёта становится не очень нужен.

У людей всё не так, их способности ограничены, поэтому они реализуют распределённый интеллект, и “за всё” ответственно (и творит, и отслеживает) уже тем самым всё человечество в целом, а отдельные люди вынуждены профессионализироваться в чём-то узком. Беда, правда, в том, что это “что-то узкое” в ходе техноэволюции появляется не как наследуемая профессия “рабочей династии”, не как собственная пожизненная занятость, а что-то эфемерное – сроком чуть ли не на один короткий проект. А дальше – переучиваться, жизнь изменилась.

Для себя я отслеживаю какие-то технологии создания автономных агентов по разным частям их предполагаемого технологического/платформенного стека (физика для вычислителя, архитектура вычислителя, общие алгоритмы, данные для обучения и т.д.). Мне это надо, чтобы хоть как-то отделять утопии, фантастику и веру в “магию AI” от суровых реалий жизни физичного насквозь мира. Я много раз вляпывался в утопии, не хотел бы повторить. Хотя много раз наоборот, точно угадывал. То, что в AI пошла революция и все эти “зимы искусственного интеллекта” закончились, я написал у себя в блоге в 2012 году (ещё в декабре 2012 я писал и о глубоком обучении Глубокое обучение (deep learning): ailev — LiveJournal, и об обучении представлениям Обучение представлениям (representation learning): ailev — LiveJournal, как говорится, “когда это ещё не было модно”). Сегодня AI уж точно не утопия.

Тему AI я удерживал всю свою сознательную жизнь, начиная со студенчества (моя студенческая работа была по “распознаванию образов в химии”, сейчас бы сказали “ML в химии”, занимался этим с 1978 года по 1980 год), а потом пару лет занимался фреймовыми системами в ВЦ РГУ, а затем занимался knowledge aсquisition для машиностроительных экспертных систем, и так далее – вплоть до сегодняшнего дня. И всё время пытался быть в курсе того, что на фронтире в области AI.

А зачем отслеживать, что там происходит с AI?
Ко мне регулярно приходят с проектами, в которых скатерть-самобранка из моих примеров в учебниках заменяется на невнятное “это в лучшем виде сделает AI, это будет нашим конкурентным преимуществом”, поэтому надо пытаться хоть как-то ориентироваться, что там правда в технологиях, а что – безудержное маркетинговое враньё. Скажем, “наш маркетплейс будет лучше маркетплейсов конкурентов, потому как у нас будет рекомендательная система на основе AI”. Ага, а команды маркетплейсов конкурентов так не думают, ну-ну. Тем более они уже есть, а вас ещё нет – и у них уже зубы на этом AI обломаны, вот и не жужжат, а у вас ещё нет – вот и “конкурентное преимущество”. Скажите сразу, что там из AI будет работать и с какими результатами вы это ожидаете. Если нет понимания, как именно реализуете это “конкурентное преимущество”, теория стратегирования говорит держаться от этого проекта подальше.

Верный критерий, по которому не стоит ввязываться в проект: это когда вас приглашают в проект, в котором ожидается изобретение, но никаких идей по этому поводу ещё нет, “идут активные научные работы”. Худший вариант – это когда от вас самого ожидают таких изобретений, предлагают стать самым главным инженером, который всё придумает. А маркетинг вроде как скажет, что именно вам надо придумать. Скажем, во времена Бэббиджа в самом начале 19 века вас приглашают делать компьютер, сиречь “универсальный программируемый вычислитель” – но радиолампы ещё не изобретены в этот момент и массовое их производство не освоено. Или приглашают в проект создания самолёта а хоть и в конце 19 века, когда ещё нет лёгкого двигателя внутреннего сгорания для мотоцикла, который использовали братья Райт в первом самолёте. В примере скатерти-самобранки я давал проект создания скатерти-самобранки, которая за три рубля может вкусно и сытно накормить за сутки сотни человек – и это горячо одобрялось маркетингом, инвесторами, всеми. На инженерный вопрос о том, как это будет сделано (какая концепция системы, какие конструктивные объекты в мире могут выполнить желаемые функции, на каких принципах физики эта скатерть-самобранка будет работать), ответ – вот наймём лучших инженеров, и они придумают, вы как инженер тоже подходите, заходите в наш проект как CTO. Вот в такие проекты с хорошо понятными функциями, но плохо понятной конструкцией я предлагаю не лезть, ибо вы можете, конечно, ждать изобретения пару лет, пока в проекте есть финансирование – но иногда изобретения надо будет ждать сотню лет, а иногда вообще изобретения ждать не приходится (скажем, в алхимических стартапах средних веков так и не дождались изобретений).

Это даже неважно, в науке или в бизнес-стартапе. Я, например, пять лет проработал в кафедральной лаборатории, куда по утрам приходил шеф, завлаб и ректор медвуза, лауреат премии Ленинского комсомола, и орал “где моя нобелевка, все вы тут бездельники, ни одной идеи за столько лет не придумали, зачем я вас тут всех кормлю!”. Вот это как раз оно. А буквально месяц назад ко мне приходили с идеей сделать AI-ассистента менеджера – типа как “у тебя есть учебник менеджмента, ты в этом шаришь, и мы возьмём какую-то LLM и сделаем AI-ассистента менеджера, который будет делать всё то, что делают менеджеры”. На мой вопрос, как же именно галлюцинирующие LLM смогут принимать решения для малых и средних бизнесов? Там же надо ворочать миллиардами, и что там будет с материальной ответственностью за эти миллиарды при неверно принятых решениях? Ну, если беспилотник задавит кого ошибочным поворотом, или LLM-врач убьёт кого ошибочным назначением, или этот LLM-менеджер растратит автоматически миллиард долларов на “ошибочную сделку” – это ж надо сначала договориться, что там с ответственностями. Ну, и понимать, как уменьшать риски. В менеджменте надо всё время заниматься стратегированием, оргпроектированием, оргархитектурой, лидерством, администрированием – и увязывать это всё между собой, ещё и влезая в бюджет, в этом фишка. При этом планирование – это наше всё, а планирование в AI сегодня – это ахиллесова пята. И оценки того, когда AI начнут нормально планировать, расходятся существенно – от “через пару лет всё будет ОК” до “где-то в 2037 заведомо”.

И что, кушать деньги инвесторов до этого неизвестного момента и приговаривать, “вот сейчас планирование добавят – и уж тогда наш AI-менеджер заработает, а пока ждём”? Нет, лучше уж сразу сказать: “в авантюры с AI в текущем виде этих систем не лезем”. В ответ слышишь, что “понятно, что сейчас непонятно, что и как делать – но надо под шум срочно собрать денег и начинать делать хоть что-нибудь, чтобы не отстать”. Да-да, хоть что-нибудь. Но забираясь на всё более и более высокие деревья, на Луну не попадёшь. Всё новое гарантированно придёт сбоку. При этом в прессе робот-CEO уже активно обсуждается (https://www.nytimes.com/2024/05/28/technology/ai-chief-executives.html).

Конечно, есть множество вполне достойных применений всех этих GPT, Сlaude и прочих Gemini вот прямо сейчас – но это точечные, специализированные применения, прежде всего там, где легко проверить ответ или не требуется звериная точность, чтобы отправить какую-нибудь ракету на Марс. Скажем, нарисовать иллюстрацию в журнал – по большому счёту неважно, пять пальцев будет там на руке, или восемь. Или предложить разводку микросхем или даже кусок кода – если там будет ошибка, понятно, как проверить. Это всё вполне укладывается в идею распределённого интеллекта, где какие-то части размышлений вытаскиваются за пределы одного мозга-вычислителя на несколько мозгов с несколькими ускорителями вычислений в какой-то предметной области.

Интересно, конечно, когда всё это будет резко умнее. И тут “всё новое придёт сбоку”.

Karl Friston и Yann LeCun как раньше шли против течения, так и сейчас продолжают
Так, интересные тезисы у Karl Friston и Yann LeCun (скажем, вот их последний разговор четырёхмесячной давности): https://www.youtube.com/watch?v=SYQ8Siwy8Ic. И смотреть надо на их свеженькие работы, чтобы понимать, не придёт ли что-то неожиданное от них. При этом понимаем, что может прийти, а может и не прийти – они ж делают то самое “изобретение”, и тут непонятно, сколько времени пройдёт, прежде чем они сами это изобретение сделают. Но они честно занимаются эволюцией подходов к AI в своих командах. Сразу видно, что оба работают с энергетическими моделями (реализующими физический принцип минимального действия), в абсолютно разных агентских архитектурах (уровень – сразу выше, чем уровень одной нейросетки, это не “одна LLM с обвязкой”), но с выходом на робототехнику – решают парадокс Моравека (там, вроде, разобрались с тем, как роботу двигаться по прямой, не падая – но задачу планирования действий, а также задачу проявления любопытства для понимания ситуации ещё не решили).

Например, ЛеКун продолжает работать с архитектурами JEPA (Joint-Embedding Predictive Architecture), причём ещё и с иерархическими такими архитектурами (вот обзорчик того, что делается [2403.00504] Learning and Leveraging World Models in Visual Representation Learning, картинка оттуда), и он утверждает, что выход на агентов будет не через порождающие/generative сети (а о трансформерах вообще через пару лет все забудут):

Последняя работа с LeCun в соавторах – контроллер для робота-гуманоида с 56 степенями свободы, [2405.18418] Hierarchical World Models as Visual Whole-Body Humanoid Controllers. Позиция LeCun – на повторение сначала интеллекта животного, то есть таки решение парадокса Моравека, “The design will start by having the intelligence level of a rat or a squirrel. We will ramp up its intelligence progressively, simultaneously designing proper guardrails and safety mechanisms, testing it in simulated playgrounds”, x.com. И там уточнение, которое он постоянно говорит: “Producing outputs that optimize an objectives (i.e. task objectives + guardrails) at inference time (not at training time, like it’s done with RLHF)”. Вот-вот, свободно двигать свои цели (а не быть меднолобым в преследовании каких-то давно протухших целей) и быть любопытным, чтобы как-то активно исследовать мир, а не сидеть-ждать, пока события тебя настигнут – вот этому надо учить, и это надо как-то архитектурно гарантировать. LeCun подчёркивает четыре характеристики, за которыми надо гнаться, чтобы добиться какой-то интеллектуальности от агента: understanding the physical world, persistent memory, reasoning and planning. Как этого добиваются люди? Например, я не надеюсь на свою собственную память и использую компьютер для заметок. Корпорации ведут компьютерный учёт всего, это оно и есть. Я не просто планирую “как человек”, я использую методы из операционного менеджмента (например, стараюсь удавливать мультитаскинг), это оно и есть. Я, конечно, понимаю разницу между описаниями и физическим миром – и понимаю, как оно там в физическом (а не утопическом) мире. Я пытаюсь рассуждать про причины и следствия, уж как могу – и задействовать при этом контрфактуальную логику. С нейросетками это всё пока – утопия на сегодняшний день, LeCun говорит, что с текущими архитектурами – и завтра будет утопия, надо бы как-то переходить к новым решениям (x.com).

По линии LLM есть надежда, что “добавим ещё размера, и оно там само как-то заведётся”, но вот LeCun и Karl Friston говорят, что надо бы это гарантировать архитектурно, а не ждать милостей от природы и надеяться, что внутри огромной сетки вырастет в ходе эволюции во время обучения какая-то наложенная сетевая подструктура, которая вдруг проявит необходимые свойства (см. обсуждение эмерджентности в больших языковых моделях тут: Как думать об эмерджентности больших языковых моделей: ailev — LiveJournal), на эту тему много чего интересного (например, смотри комменты в x.com, всё сводится к тому, что как и у людей – в S2 нынешние LLM не умеют, и при росте размера не похоже, чтобы это “самозарождалось” в универсальной форме).

В работах LeCun ровно та самая работа с beliefs (во время inference, а не learning), эпистемологическая работа, работа с планированием и любопытством, о которой всё время говорит и Karl Friston. Конечно, все ожидают от LeCun Llama 3 340B в опен сорсе, но в эволюционном (а не времени “прямо сейчас, у меня проект горит без этого”) времени это не самое интересное, что выходит из Meta (но, конечно, крайне модное).

Что касается самого Karl Friston, то тут надо глядеть на страничку https://www.verses.ai/ – там делают систему под скромным названием Genius™ (VERSES | GENIUS), public beta preview с 20 июня 2024, осталось недолго. Там забавный документ, “открытое письмо совету директоров OpenAI”, где они говорят, что “ваше дело неправое, вы с вашими LLM проиграете” и рассказывают, что выиграют как раз они – Research & Development | VERSES

Их решение основано на разделении труда между агентами, причём они чётко определяют протоколы коммуникации для этих агентов на базе стандарта “пространственного веба” IEEE P2874, IEEE P2874 Spatial Web, Architecture and Governance Working Group - Home, standard describes a Hyperspace Transaction Protocol (HSTP) that enables interoperable, semantically compatible connections between connected hardware (e.g. autonomous drones, sensors, smart devices, robots) and software (e.g. services, platforms, applications, artificial intelligence systems) and includes specifications for: 1) a spatial range query format and response language for requesting data about objects within a dimensional range (spatial, temperature, pressure, motion) and their content. 2) a semantic data ontology schema for describing objects, relations, and actions in a standardized way 3) a verifiable credentialing and certification method for permissioning create, retrieve, update, and delete (CRUD) access to devices, locations, users, and data; and 4) a human and machine-readable contracting language that enables the expression and automated execution of legal, financial and physical activities. Всегда говорил, что двигателем прогресса являются даже не стандарты, а война стандартов – каждое новое поколение технологий оформляется каким-то победившим в войне стандартов интерфейсом.
Вообще, я ожидаю, что основные прорывы будут идти из робототехники:
– там реальное время
– там ограничения по энергоёмкости вычислений
– там надо решать парадокс Моравека, то есть работать с реальным миром, а не “миром из описаний, собранных во всём интернете” (ибо бумага-то всё терпит, а физический мир – не всё)
– там больше вероятность, что надо налаживать коммуникацию агентного роя (хотя если это более-менее интеллектуальные агенты, их роем уже не назовёшь, и даже “стадо роботов” тут не очень подходящий термин, скорей уж команды агентов, по-людски).

Ещё, конечно, надо отслеживать то, что творится в области аппаратуры. Тут, например, компания Виталия Ванчурина, https://artificialneuralcomputing.com/ – и там из осмысленных продуктов NeuraPilot на базе подхода автономных частиц (частица имеет огромный поток многомерной информации об её окружении, но крайне малый алфавит возможных действий, так что надо иметь high-to-low dimensional map, чтобы окружающую среду переводить в действия. И тут интересно даже не само достижение, а математика: для описания нейронной сети применили математику теории поля, и всё заработало быстро и эффективно (и дальше можно думать, как реализовать эти вычисления на основе теории поля каким-нибудь физическим устройством). Вот ещё один ход на физические описания, но он и так у всех на слуху, https://www.extropic.ai/ – при этом обратите внимание, что там слоган “Merging generative AI with the physics of the world”, а ведь не все согласны, что развитие пойдёт по линии generative AI. Конечно, какое-то порождение там везде сидит внутри агентов (они ж не только дискриминативными задачами занимаются, отнесения к классу, не ведут вечный спор о терминах), но одно дело претендовать на “нейросетку побыстрее для всех вариантов агентских архитектур”, а другое дело – говорить сразу об AI. Хотя это может быть словесный трюк: “AI как агент, но там внутри какая-то часть – порождающая нейросетка”.

Причём тут методология
На эти темы можно писать вечно, но пока хватит – работать надо, курс “Методология” переписывать. Особенность текущего момента в том, что я в курсе “Методология” вроде как должен прописать общую теорию деятельности, причём:
– выдать её по-возможности независимо от типа агента (человек, AI-агент, организация из них всех, включая не слишком интеллектуальные компьютеры и другие инструменты)
– выдать, как моделировать методы работы и работу, причём включить сюда и для чего это делается: для стратегирования и планирования

То есть мне надо каким-то образом описать SoTA в том, как решаются у людей задачи, которые никак не могут решить в области AI – но люди такие задачи решают. И отслеживание того, как формулируют эти задачи в мире AI, даёт онтологию того, как думать об этом для людей – ибо люди, как показывает опыт, не могут внятно говорить о том, как же они так чудесно работают. Поэтому пишем “Методологию”, но смотрим не только на текущее “учение о методе, самые общие знания о деятельности людей”, но и на попытки формализации разумного поведения, которые делают исследователи AI. Так сказать, ещё один чеклист для того, что там в курсе должно появиться. У меня ж курс современной методологии, а не истории методологии. Поэтому рассказывать надо не о разделении труда во времена промышленных революций, а о разделении труда между людьми и машинами, а дальше и между машинами – при этом понимая, что потихонечку меняется и идея того, что такое “человек”, и идея того, что такое “машина”.

Бонус для тех, кто дочитал до этого места: вот тут показывается, как работает современный редактор вокала, https://www.youtube.com/watch?v=PCYTqDSUbvU. Если вы не бог весть какой певец, но хотите спеть шикарную вокальную партию – берёте этот редактор (за 12 долларов в месяц, а попробовать бесплатно, https://www.acestudio.ai/price), и вы на выходе будете богом вокала. И пока на видео полно восторгов про эту крышесносную технологию, вы должны думать о том, что петь вам, по большому счёту уже не надо. И сочинять музыку не надо. И стихи сочинять тоже – за вас всё сделают. Сервисов, которые сочиняют музыку для вас, уже множество. Suno по качеству сочинения не самый лучший, но зато самый распространённый (ибо там есть опция “бесплатно”). Там поразвлекалось уже 12 миллионов человек, при этом гарантированно, что большинство из них музыке никогда и не учились. И вот эти люди и рвут в клочья все представления о том, что возможно в музыке. Мой фаворит – это караоке босса-нова на текст из синего экрана смерти Windows, Telegram: Contact @denissexy. И, конечно, рэп на тему перепалки между Элоном Маском и Яном ЛеКуном – x.com. Нечеловеческая музыка после этого воспринимается уже привычно, “никаких новостей”, примерно так же, как уже внимания не обращаешь на бесконечный поток нечеловеческой графики, при этом художники, конечно, обсуждают новые и новые версии редактирования картинок на базе использования того же AI. Фишка уже не в том, чтобы спеть, сыграть, нарисовать – фишка в том, чтобы придумать, что именно сыграть или нарисовать.

Примерно то же самое происходит с софтом: сначала мы восторгаемся, как AI помогает отредактировать текст программы, а затем окажется, что AI их и напишет с нуля, и затем протестирует, и проведёт A|B тест – и акценты сместятся на то, чтобы придумать, что бы такое запрограммировать. И даже не 12 миллионов, а 120 миллионов ни разу не программистов воспользуются предложением “попробуйте бесплатно, а если понравится, то можете пользоваться за символическую плату”.

Дальше переносим это на всё вообще, включая механическую инженерию (AI в САПР), создание микросхем, что угодно. Да, не очень быстро, не слишком сразу, но в конечном итоге стремительно. Не факт, что на основе LLM, у инженеров, как видим, ещё очень много идей, и не все стартапы вышли из своей фазы невидимой работы. Вот наша “Методология” должна быть для такого мира, для методов такой работы. Если не в текущей переписке, так в следующей.

7 лайков

Спасибо за ссылку!

То, как Карл и Ян, описывают “интеллект” отлично подсвечивает/“обращает внимание” на то, как сейчас все стараются имитировать планирование и память. И это понятие как раз то что в школе предлагают понимать под “агентом” (но это не секрет).

Заметил схожесть с понятием “жизненный цикл”, точнее эволюцию этого понимания с тем как идет определение(в медиа/индустрия) “AGI”, deep learning (то как я понимаю это понятие) прямолинейна - один цикл. Хотя все, только и делают что бегают по кругу ( q-learning ), имитируя интелект.