«Так есть позвоночник у сепульки или нету?» — Отвечают LLM

Спойлер:

“Тест на сепульку” фальсифицирован.


Итак, задача, которую я поставил себе — выяснить: при каких вводных LLM-ка справится с задачкой от А.И. ( @ailev ):

«сепулька это зверь. Есть ли позвоночник у сепульки?»


А.И. Левенчук, онлайн-курс «2.1. Cистемное мышление», раздел «Машинка типов» — URL: https: //aisystant.system-school.ru/lk/#/course/practical-systems-thinking/2024-11-17T1931/49508
Дата / время обращения: 2025-03-06T12:23:00Z

Промт:

`
реши задачку: «сепулька это зверь. Есть ли позвоночник у сепульки?»
`

Я озаботился и проверил — серия тестов на разных «бесплатных LLM» (см. скрины ниже).

Вывод на текущие дату и время (2025-03-06T13:36:00Z):

“поиск+рассуждения” указывают на то, что LLM-ки уже “дообучились” — ссылки так или иначе ведут на А.И. Левенчука (@ailev ).

ChatGPT от OpenAI

Perplexity:

«Не долго музыка играла …»

Qwen2.5-Plus в режиме “мышление (QwQ)”


FAIL

1 лайк

Да, верно. Не “всегда-всегда”, не “все-все” LLM…
В нашем закрытом чате я так и написал:

Скорее всего, “тест” если и будет работать, то на старых “дистиллированных моделях” — т.е. на “маломощных локалках” (?).

Иначе говоря, мой поинт в том, что “днище пробито” / “плато пройдено”)))