Lytdybr -- 24 июля 2023

ailev · 24.Июль.2023 15:30:11

Опубликована беседа со мной – два с половиной часа разговора про системное мышление в рамках “Бесед МФТИ”, организатором вытупила онлайн-магистратура “Технологическое предпринимательство”. Видео я выложил у себя в https://youtu.be/GvE8ewD-kek (эксперимент, раньше практически не пользовался ютьюбом), оригинал в облаке физтеха – Облако МФТИ.

Удивительно, насколько сложно объяснять, что сначала – целевая система в момент эксплуатации, а потом уже всё остальное. Скажем, у нас задача улучшить конструкторскую работу в машиностроении, чтобы было меньше производственных ошибок (типа как “изготовили, как вы напроектировали – собрать не можем!”). Собираем конструкторов и обсуждаем с ними, что там можно наладить? Нет. Целевая система в момент эксплуатации стоит у клиента и работает, ближайшее приближение – стоит на заводе, готовая к отгрузке. И конфигурация системы – это не конфигурация файлов в PLM, а конфигурация этой вполне физической системы. Поэтому собираем конструкторов с заводскими технологами, и обсуждаем, как будем решать проблемы, которые есть у технологов. Много раз видел конструкторов, у которых всё отлично собиралось “в компьютере”, но почему-то не собиралось “в физике”, на заводе. Проблемы же обычно банальны. Скажем, у конструкторов всё в PLM, а на заводе – в ERP. Ну, и как оно без ошибок попадает одно в другое? А никак, не было такой задачи, когда налаживали PLM. А ведь с этого надо бы начинать: показывать не “у нас всё в PLM собрано”, а “вот наша PLM работает, вовне у нас такие эффекты – например, в ERP есть состав изделия”. ОК, если в ERP есть состав изделия – верю, PLM работает. Если состав изделия есть в PLM, то не верю, что PLM работает! Это как конструкционизм в педагогике: детка должен что-то сделать в ходе учебного процесса, что можно проверить извне и дать обратную связь. Например, решить задачу, записать шаги решения и ответ. Тогда проверяем, подтверждаем, что задача решена, и решена правильно. Если конструкторское бюро что-то делает, что извне непроверяемо, но только они сами себе говорят, что “у нас всё правильно” – ну, это могут быть их фантазии. Так что пусть заводчане скажут, работает ли PLM у конструкторов, или не работает, самим конструкторам не верим. Впрочем, к САПР это тоже относится, легко ведь запроектировать что-то такое, что не может быть нормально изготовлено (зато какие чудесные характеристики будут у этой невозможной к изготовлению детали! Просто волшебные! Разве что “в физике” такой детали не будет, а только “информационная модель”). У программистов всё то же самое, только терминология другая. Впрочем у программистов организация труда в связи с их platform engineering (в девичестве DevOps) чуток другая, там стало чуть полегче всё это обсуждать. А с конструкторами – до сих пор так. Я вот думаю, что “служба инженерных данных” очень плохо так названа. Ибо велик соблазн заниматься именно “данными самими по себе”, а не “данными о системе”. Одно дело “данные о конфигурации” (и цель в том, чтобы данные были ОК), другое – “конфигурация” (и цель в том, чтобы конфигурация была ОК, а данные в этом должны как-то помочь).

Одна из линеек обсуждений к посту Telegram – разговор с “Танюшей”. Григорий запостил у себя в канале ссылку на Do Insects Feel Joy and Pain? | Scientific American – там обсуждается разумность колонии пчёл. Я откликнулся ссылкой на статью про тесты разумности муравьёв “The ant colony as a test for scientific theories of consciousness”, Daniel A. Friedman1 · Eirik Søvik2, Daniel A. Friedman & Eirik Søvik, The ant colony as a test for scientific theories of consciousness - PhilArchive. И справедливое замечание Танюши, что проблема сознания не так интересна, как интересна проблема продкрепления с progressively diminishing returns, ибо в каком-нибудь DishBrain (и прочем материале по active inference) вообще нет никакого подкрепления, но есть любопытство и поиск новизны для незастревания в локальных минимумах. Я откликнулся ссылкой на дрессировку выдр: Общий же вопрос — зачем существует на свете дрессировка у кошечек, когда есть active inference? Насколько я помню, это вопрос многоуровневости алгоритмов: в каких-то случаях надо вычислять поведение, а в каких-то случаях проще его доставать из таблицы уже вычисленное. Вот это “создание таблиц” и есть научение с наградой, используется в более общих циклах. В книжках по дрессировке, кстати, приводят пример выдр, как не поддающихся дрессировке млекопитающих: у них как раз побеждает active inference, Отрывки из книги Карен Прайор "Несущие ветер» | ВКонтакте . А тут муравьи да пчёлы! Танюша парирует, что она вообще не про подкрепление (при этом и кошки и выдры нормально дрессируются, хотя и не слишком легко), а про допаминовую систему – повторная стимуляция вызывает меньшее и меньшее подкрепление, а здоровая ситуация – это разнообразие источников, ибо из-за progressively diminishing return оказывается, что новинзна в неявном виде подкреплена сама по себе. А мне это напомнило как в нейросетках в алгоритмах встраивают поиск новизны (novelty), это называется artificial curiosity. И выяснилось, что если в каком-то мире где-нибудь в углу поставить телевизор, и там что-то типа небольшого шума на экране, то агент находит телевизор и залипает на нём, ибо вот он, бесконечный источник новизны! А вокруг всё знакомое-знакомое, идти некуда. Пришлось бороться с таким эффектом “новизны из одного источника”. Вот классика этого жанра: Curiosity and Procrastination in Reinforcement Learning. В ответ Григорий Сапунов: “Наверняка классика у Шмидхубера, где-то в районе Formal Theory of Creativity and Fun and Intrinsic Motivation Explains Science, Art, Music, Humor (Juergen Schmidhuber). Artificial Scientists, Artificial Artists, Developmental Robotics, Curiosity, Attention, Surprise, Novelty, Discovery, Open-Ended Learning, Formal Theory of Beauty, Creating Novel Patters”. Я: Шмитхубер классику, конечно, в любых решениях найдёт. Но вопрос Татьяны был не совсем про это. Там ещё был ход у Ванчурина: чисто термодинамически как выучивать много новизны? Ответ был такой, что что-то одно будет выучиваться, а что-то другое забываться — так что термодинамика не пострадает. И забытое потом будет — новым! И так бесконечно, “флуктуации нового-старого” во вселенной, для поддержания общего равновесия новизны. Григорий: “Хорошая болезнь – склероз. Каждый день что-то новое”. Я: Вот по Ванчурину это рассеянный склероз (прямо по медицинскому определению: множественный и без определённой локализации очагов) вселенной. Вселенная осциллирует между “вот эта часть выучила вот эту часть” и “а вот эта часть теперь забыла вот эту”, “а вот эта часть теперь выучила и её тоже” — в целом же термодинамически всё оказывается ОК, ни тебе вселенского порядка, ни тебе вселенского хаоса, просто где-то убывает, а где-то прибывает. Дмитрий в ответ: “Так ведь и до Boltzmann brain можно добраться. Вдруг где-то да возникнет!”. Я: “Ну вот Ванчурин как раз астрофизикой занимался, так что всё учтено могучим ураганом”. Хорошо поговорили! Моё мнение совпадает с мнением Танюши: решение проблемы сознания не так важно, как понимание проблем любопытства и творчества, завязанных на поиск новизны, незастревание в локальных минимумах. У меня это размазано в “Интеллект-стеке” по самым разным разделам/дисциплинам – и “познание/исследование” (которое хотел назвать “творчество”) и эстетика (где новое изделие в рамках стиля, новые стили, новые практики, где появляются потом стили и новые стили). А сознание? Ну вот как-то не так интересно, его надо деконструировать на более конкретные объекты, по-другому изложить, чтобы стало интересно.

В чате сиолошной обсуждается пост о том, что нормальный инженер MLE должен знать, как именно (с точностью до математики и алгоритмики) работает архитектура трасформера для нейронных сеток – любой любопытный должен вроде как её выучить, ведь уже шесть лет с момента выхода “Attention is all you need”, время было (с Telegram). Мой первый ход тут на то, что надо уже дальше двигать. Никогда не надо приходить в то место, где шайба уже есть, говорил великий хоккеист Грецки. Надо приходить всегда в ту точку, куда шайба вот-вот придёт. Например, “Retentive Network: A Successor to Transformer for Large Language Models”, [2307.08621] Retentive Network: A Successor to Transformer for Large Language Models. The intriguing properties make RetNet a strong successor to Transformer for large language models. Но дискуссия в чате оставалось жаркой, и я сделал замечание об общем паттерне двух уровней знания: 1. общее знание типа “мышление, стоящее за всеми этими алгоритмами”. Оно позволяет очень быстро разбираться в самых разных алгоритмах, если приспичит. 2. конкретное знание конкретного алгоритма. Оно точно прикладное, а не базовое. Базовое знание — это как раз “про все алгоритмы”, включая те, которые только-только придут. Основная проблема в том, что пытаются общее/базовое знание передать через изучение многих частных/конкретных примеров. В математике это “разделы математики”, в физике “разделы физики”. Только потом оказывается, что разделы математики и разделы физики знают, а мышления математического и физического — нет, не генерализовано. С трансформерами то же самое. Или у тебя есть общее архитектурное мышление про алгоритмы deep learning и понимание того, как они составляются из разных фишек, или его нет — но, например, есть знание попсовой текущей архитектуры. При приёме на работу, конечно, надо проверять наличие базового знания. Понятно ли вообще, как там устроены разные варианты архитектур, в которых самые разные трансформеры только один из “разделов”. При этом “как устроен трансформер” тут может быть просто побочным эффектом от этого знания — кто-то рассмотрел это в качестве “примера”, вот и узнали. Но проверяться должно не “целенаправленное разбирательство с трансформером”. В ответ Magnus Morinhel привёл мнение Пола Грэхема, что он пошёл бы получать бакалавра физики ради принципов мышления. Я же уточнил: там сложные отношения между физикой, математикой и даже отчасти биологией (ибо про эволюцию физики моделируют на примере биологии, а с этими непрерывно появляющимися новыми нейросетями — это ж техно-эволюция). У меня про это курс “Интеллект-стек”, там несколько разделов по мотивам работ Дойча, Ванчурина, Филдса и т.д. И ещё там семантика, конечно, и алгоритмика. И везде нужно то самое “общее мышление”, а конкретные реализации — это прикладное знание. Проблема в том, что общему мышлению впрямую не учат (в инженерных вузах должны учить), а учат прикладухе, “как устроен алгоритм X, как доказать теорему Y, какой у нас есть закон про поведение физического тела Z”, это профтехучилище, только не строительное или сантехническое, а физико-математическое. И если есть хороший профессор рядом, то генерализация в общее мышление может случиться, а если нет — то всё, набор прикладного знания в голове, другой уровень мышления. (и там в чате резиновая бомба по поводу трансформеров и необходимости их хорошенько изучить всем хоть как-то любомытным продолжает прыгать до сих пор там уже не трансформеры обсуждаются, а “кто на них поднялся” и идеи типа OpenAI Is Now Everything It Promised Not to Be: Corporate, Closed-Source, and For-Profit).

Есть большая вероятность, что в двадцатых числах августа я попаду в Кемерово на пару дней. На эту тему клип Гребенщикова “человек из Кемерово”: https://www.youtube.com/watch?v=ugFEgMgLOMg