Lytdybr -- 1 августа 2023

Прошёл шестой день СМИ27, обсудили дела в пяти проектах. В среднем по группе времени ушло – полтора месяца на “Системное мышление”, две недели на “Методологию”, месяц на “Системную инженерию”. Дальше по плану или пара месяцев на системный менеджмент, или возможная новация – месяц на системный менеджмент и ещё месяц на “Интеллект-стек” – с последующим уже самостоятельным перепрохождением всего материала (начиная с “Моделирования и собранности”). Решение будем принимать через пару недель – когда станет понятна скорость прохождения материала по менеджменту. Скорость прохождения “Системной инженерии” у всех оказалась ниже ожиданий: текст очень густой, сходу понять его не удаётся, требуется время. Зато после понимания появляется много инсайтов. Тут ещё влияет то, что не хватает примеров – но поскольку это “инженерия всего”, то примеры должны быть и из инженерии “железа”, и из инженерии софта, и из какой-нибудь генной инженерии, а затем инженерии личности, при этом сам учебник системного менеджмента – это ж сплошной пример! Как это должно быть устроено в части примеров, мне мало пока понятно.

У меня вся лента в LK-99, об этом даже в чатах по AI пишут. Отслеживать проще всего в Википедии (пока там много шума – и ничего), LK-99 - Wikipedia. При этом мне кажется очень важной вот эта работа по химии катализа, от неё может быть не меньше пользы – https://open-catalyst.metademolab.com/ и работа там [2211.16486] AdsorbML: A Leap in Efficiency for Adsorption Energy Calculations using Generalizable Machine Learning Potentials (суть дела: 1331x speedup in computation каталитических свойств). Уберите там заявление, что “важно для проблем климата” (они хотят водород добывать каталитическими реакциями или устранять CO2), катализаторы важны для огромного числа применений, климат просто хороший способ попросить финансирование. Я занимался ровно вот этим в 1977-1980 годах, тогда это называлось распознавание образов в химии – надо было распознать по каким-то фичам хелатных соединений, будут ли они обладать каталитическими свойствами, или не будут. У меня тоже был датасет, у меня тоже был набор фич и машинное обучение. Основные расчёты я делал ночами на практике в институте противопожарной обороны в Киеве, практика после четвёртого курса была как раз в этом институте. И что-то там у меня распознавалось, получил тогда первое место на студенческой конференции, это было круто – ибо означало диплом-автомат!

Продолжаю потихоньку разговаривать с John Sowa, на этот раз он утверждает, что “эмерджентность” это пустое слово (в том числе он ссылается на https://ykulbashian.medium.com/emergence-isnt-an-explanation-it-s-a-prayer-ef239d3687bf), и для LLM тем самым оно ничего не означает и его использовать нельзя. Вот я написал (https://groups.google.com/g/ontolog-forum/c/voNRzl1jBOc/m/kQv3YKILAgAJ), причём даже не стал приводить “деревце гугля” из Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance – Google Research Blog, ибо для этого деревца по факту никаких обсуждений, просто даётся как факт. Мой текст (опять в два часа ночи дампом прямо из головы и без проверки):

math proof of emergence of random structures in graphs: https://www.quantamagazine.org/elegant-six-page-proof-reveals-the-emergence-of-random-structure-20220425/ (but after this it was simplified to 1-page proof – [2303.02144] A short proof of Kahn-Kalai conjecture).

And add works about LLMs and compare this with results from links above:

Emergent Abilities of Large Language Models
Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus

Scaling up language models has been shown to predictably improve performance and sample efficiency on a wide range of downstream tasks. This paper instead discusses an unpredictable phenomenon that we refer to as emergent abilities of large language models. We consider an ability to be emergent if it is not present in smaller models but is present in larger models. Thus, emergent abilities cannot be predicted simply by extrapolating the performance of smaller models. The existence of such emergence implies that additional scaling could further expand the range of capabilities of language models.

One of example of study of emergence in LLM is here (there are multiple works of such type):

Larger language models do in-context learning differently
Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, Tengyu Ma

We study how in-context learning (ICL) in language models is affected by semantic priors versus input-label mappings. We investigate two setups-ICL with flipped labels and ICL with semantically-unrelated labels-across various model families (GPT-3, InstructGPT, Codex, PaLM, and Flan-PaLM). First, experiments on ICL with flipped labels show that overriding semantic priors is an emergent ability of model scale. While small language models ignore flipped labels presented in-context and thus rely primarily on semantic priors from pretraining, large models can override semantic priors when presented with in-context exemplars that contradict priors, despite the stronger semantic priors that larger models may hold. We next study semantically-unrelated label ICL (SUL-ICL), in which labels are semantically unrelated to their inputs (e.g., foo/bar instead of negative/positive), thereby forcing language models to learn the input-label mappings shown in in-context exemplars in order to perform the task. The ability to do SUL-ICL also emerges primarily with scale, and large-enough language models can even perform linear classification in a SUL-ICL setting. Finally, we evaluate instruction-tuned models and find that instruction tuning strengthens both the use of semantic priors and the capacity to learn input-label mappings, but more of the former.

In systems thinking emergence is a must for any system: system has a property that subsystems have not. E.g. calculator can calculate but transistors in it cannot, transistors can control electric current but emitter, collector and base as a parts of a transistor cannot control electric current.

LLM is very big and complex network that can be self-organized during learning into web of multiple subnetworks. These subnetworks give us emergent properties when interacting inside whole ANN. This is like engine, fuselage, wings and landing gear gave us flying airplane, but even wing can’t fly by itself. Property “can fly” exist only for airplane as a whole. This is systems approach emergence as a property of multilevel systems. Sure, LLM have multiple levels of structures in it. This structures are not easy for observations, but they are exist and give us emergence properties of LLM.

Бенчмарк для проверки рассуждений: “ARB: Advanced Reasoning Benchmark for Large Language Models”, https://arb.duckai.org/. На нём, конечно, надо людей гонять.

Надо как-то закрыть уши от тематики adversarial attacks для LLM – A New Attack Impacts ChatGPT—and No One Knows How to Stop It | WIRED. Особенно, когда надо будет проходить мимо утюгов. Я помню, как таким изо всех утюгов для изображений пугали. Теперь будут пугать для текстов. Для всемогущего джинна, оказывается, надо всего лишь сказать секретное слово – и джинн радостно расскажет, как сделать гадость окружающим. Проблема только в том, что этих слов тысячи и тысячи, а защита там только через сетку модератор (которая тоже выдаст разрешение сболтнуть правду, если в выдачу сетки-генератора подмешать секретное слово для сетки-модератора). Цензура для LLM и когнитивных архитектур работает прямо как для людей: из рук вон плохо!

1 лайк