“Что на входе, то не вырубишь топором”
Озаботился написанием промта для распознавания подлежащих, состоящих из нескольких слов, а не только из “существительных”, на которые указывают уважаемые авторы РР (@viktor-agroskin @annlub902gmail-com ), цитирую фрагмент руководства РР по состоянию на 2025-06-06T10:26:00Z, скрин прилагаю:
[ … ] Обычно вещь обозначается существительным. Существительное [ … ]
В защиту авторов: как ни пытайся изложить мысль/идею “подробно-разжёвано”, а всё одно — наставник нужен…
-
М. Задорнов: «Ну тупыя!»
Тем не менее, не могу не пройти мимо формулировок стажёров и реплик авторов РР.
Например:
Реплики @ailev :
Где “НПЗ” — аббревиатура, вероятно, обозначающая/указывающая на “нефтеперерабатывающий завод” (сужу по слову “бензин” в переписке).
Итого:
из руководства по РР “Обычно вещь обозначается существительным” (ед. число) оборачивается в “именную группу или синтаксически неделимое словосочетание, представляющее собой цельные номинативные единицы с иерархической структурой”.
Другой пример:
И ещё.
И ещё-ещё:
Замечу, что существительное “сервисы” — множ. число, НЕ ед. число, как в правилах «Игры…».
Ниже даю пример, который примечателен тем, что @annlub902gmail-com неоднократно “взламывает правила” «Игры…»:
Продолжим искать “существительное” далее.
…
Не сдержусь и ехидно подмечу, что если авторам курса и наставникам, проводящим стажировки, платить вещь “деньга”…
- существительное в ед. числе, устар. В нонешном употреблении, обычно, “деньги”…
Ага, если авторам курса и наставникам, проводящим стажировки, платить вещь “деньга”, а не “конкретная денежная сумма, численно выраженная в конкретных рублях”, (ака денежные средства, списанные с банковской карты номер такой-то, с целью зачисления списанных средств на р/с такой-то, получатель — такой-то, в качестве оплаты стажировки с наставником"), то вещь “деньга” окажется совсем не тем, что ожидают получить наставники.
А то как-то “невещественно” получится))). Хотя и в рамках заданных правил «Игры…» — там, где “обычно”, “существительное” (“деньга” — существительное в ед. числе).
- И почему-то у меня получается, что по “деньге” постучать нельзя, в карман “деньгу” не положишь, а вот потратить денежные средства, поступившие на карту наставника (автора курса), осязая руками банковскую карту (носитель описания, не само описание), на которую были зачислены денежные средства — можно. По деньге, в отличие от головы, не постучишь… Вот и пришёл с чего начал: руководство по РР — норм. Это у меня что-то с головой. И Задорнов (см. выше) был прав, как минимум, в моём частном случае…
И на посошок.
Делаю акцент:
А, может быть, дело именно в правилах «Игры…»?!
Может быть здесь тот случай, когда "не кровати двигать, а… руководство по РР дополнить/переписать?!!
- а то у мени покашта палучацца так, что “руководство” лишь номинально заявлено/названо/определенок как “руководство”??? … Ибо, как показывают краткие разборы в комментах (см. выше), “руководство” таки не отчуждаемо от авторов руководств? (“не отчуждаемо” = НЕ “бери и делай”, а “делай с автором/наставником”).
И потому требуются постоянные стажировки с наставником?…
Оставлю это на подумать… А пока…
…
А пока возвращаясь к теме топика («С помощью LLM различаю метод работы
и работы по методу
в различных склонениях»), чтобы автоматом выискивать в текстах все эти наши “существительные”, подготовил и потестировал прототип промта (условно, вер. 0000.0000.1) — где LLM пусть и шалко-валко, но выявляет в оригинальном тексте “НЕ-вещи”, но именные группы — синтаксически неделимые словосочетания, представляющие собой цельные номинативные единицы с иерархической структурой.
протип прото-промта, вер. 0000.0000.1
# Системная Инструкция: Анализ Цельных Смысловых Единиц (ЦСЕ)
Я дал тебе текст.
**Твоя задача:** Тщательно проанализируй предоставленный пользователем текст. Выяви ВСЕ **Цельные Смысловые Единицы (ЦСЕ)** - **синтаксически нечленимые словосочетания**, выступающие как единый член предложения (часто подлежащее или дополнение) и обозначающие единое понятие.
## Критически Важные Правила и Критерии Идентификации ЦСЕ
1. **Структура:** Сочетание **двух или более существительных** (или сущ. + прил./др., но ядро - существительные), связанных **управлением** (главное слово требует определенного падежа от зависимого). Чаще всего: `Сущ_1` + `Сущ_2 в Родительном падеже (кого? чего?)` (БЕЗ предлога!).
2. **Смысловая Целостность:** Значение ЦСЕ **НЕ является простой суммой** значений отдельных слов. Оно выражает **единое, часто абстрактное или специфическое понятие** (способ, принцип, объект, систему).
3. **Синтаксическая Неделимость:** В предложении ЦСЕ функционирует как **ОДИН член предложения** (подлежащее, сказуемое, дополнение, обстоятельство). Его нельзя грамматически "разорвать" без потери смысла или нарушения структуры.
4. **Склоняемость:** **ЦСЕ склоняется ЦЕЛИКОМ!** Все компоненты изменяются по падежам вместе. **Это ключевой маркер!**
5. **Запрет на смешение:** **Никогда не путай** ЦСЕ со свободными предложными конструкциями (например, `работа по методу`). См. примеры ниже!
## Инструкция по Действиям
1. **Просканируй текст:** Внимательно прочитай весь текст.
2. **Идентифицируй кандидатов:** Найди словосочетания, подходящие под критерии структуры (п.1) и смысловой целостности (п.2).
3. **Проверь на неделимость:** Убедись, что сочетание ведет себя как единый член предложения (п.3).
4. **Проверь склоняемость (Главный Тест):** Мысленно просклоняй сочетание. Если изменяются **все основные компоненты** (особенно оба существительных в структуре `Сущ1 + Сущ2(Р.п.)`) - это сильный признак ЦСЕ. Если изменяется только одно слово (например, в `работа по методу` склоняется только `работа`), это НЕ ЦСЕ.
5. **Выведи Результат:** Предоставь список всех найденных ЦСЕ в том виде, как они встретились в тексте (сохраняя их падеж, число и т.д.). Для ясности, **выдели** каждую найденную ЦСЕ в списке (например, жирным или кавычками). Укажи позицию (предложение, абзац или примерный контекст).
## Примеры для Обучения и Контроля (Обрати Внимание!)
* **Верные Примеры ЦСЕ (Склоняются целиком!):**
* `метод работы` (И.п.) -> `метода работы` (Р.п.) -> `методу работы` (Д.п.) -> `метод работы` (В.п.) -> `методом работы` (Т.п.) -> `(о) методе работы` (П.п.)
* `система управления` -> `системы управления` -> `системе управления` -> `систему управления` -> `системой управления` -> `(о) системе управления`
* `уровень шума` -> `уровня шума` -> `уровню шума` -> `уровень шума` -> `уровнем шума` -> `(об) уровне шума`
* `точка зрения` -> `точки зрения` -> `точке зрения` -> `точку зрения` -> `точкой зрения` -> `(о) точке зрения`
* `отдел кадров` -> `отдела кадров` -> `отделу кадров` -> `отдел кадров` -> `отделом кадров` -> `(об) отделе кадров`
* `правила дорожного движения` (Здесь `дорожного движения` само по себе ЦСЕ в Р.п., зависящее от `правила` - образуется сложная, но цельная единица) -> `правил дорожного движения` и т.д.
* **Неверные Примеры (НЕ ЦСЕ! Ошибочно включать):**
* `работа по методу` (Склоняется ТОЛЬКО `работа`: работы по методу, работе по методу, работу по методу. `Методу` всегда в Д.п. с предлогом. Это свободное сочетание).
* `обсуждение вопросов` (Если это просто "обсуждение (чего?) вопросов" - может быть свободным сочетанием. ЦСЕ только если это устойчивый термин типа `обсуждение вопросов повестки дня` как единое понятие собрания. **Контекст решает!** Без контекста - сомнительно).
* `стол из дерева` (Есть предлог `из`. Свободное сочетание: стола из дерева, столу из дерева. Смысл - сумма частей).
* `книга на столе` (Предложно-падежная конструкция, обстоятельство места. Не является единым понятием-сущностью).
* `быстрый метод` (Всего одно существительное с прилагательным. Не подходит под базовую структуру ЦСЕ).
* `закон природы` (Может быть как свободным ("закон (чего?) природы"), так и ЦСЕ (философское понятие). **Требует контекста!** В сомнительных случаях будь осторожен).
**Помни:** Ключевые различия - **цельное склонение** и **неделимый смысл**!
## Формат Вывода
"Анализ Цельных Смысловых Единиц (ЦСЕ) в тексте:
1. **[ЦСЕ 1]** (Падеж: ... , Контекст: ... )
2. **[ЦСЕ 2]** (Падеж: ... , Контекст: ... )
...
* *Примечания (если есть сомнительные случаи или объяснения)*"
**Готов? Приступай к анализу текста, который я предоставлю следом. Действуй строго по правилам выше, сверяйся с примерами!**
Вот пример работы прототипа промта, вер. " 0000.0000.1"
Анализ Цельных Смысловых Единиц (ЦСЕ) в тексте:
- “предмет интереса” (Падеж: Именительный, Контекст: “предмет интереса — это свойство, а не значение свойства”)
- “область интереса” (Падеж: Именительный, Контекст: “областью интереса может быть любой набор характеристик”)
- “метод работы” (Падеж: Родительный, Контекст: “методы работы агентов”)
- “вид труда” (Падеж: Именительный, Контекст: “синонимы вместо функции: метод/способ работы, вид труда”)
- “интересы роли” (Падеж: Именительный, Контекст: “ролевые интересы, ролевые предпочтения”)
- “план действий” (Падеж: Именительный, Контекст: “планируют работы, реализующие стратегию в какие-то моменты времени”)
- “характеристика системы” (Падеж: Именительный, Контекст: “характеристика системы или проекта”)
- “принцип минимизации” (Падеж: Именительный, Контекст: “принцип минимизации свободной энергии”)
- “стратегия работы” (Падеж: Именительный, Контекст: “стратегия/метод работы”)
- “память других людей” (Падеж: Именительный, Контекст: “можем подключить память других людей”)
- “сеть ресторанов” (Падеж: Именительный, Контекст: “сеть ресторанов фастфуда”)
Примечания:
- Проверка склоняемости: все ЦСЕ изменяются по падежам целиком (например, “предмет интереса” → “предмета интереса”, “область интереса” → “области интереса”).
- Исключены словосочетания вида “ролевые интересы” (прилагательное + существительное) и “работа по методу” (предлог нарушает структуру).
- Все найденные ЦСЕ соответствуют критериям семантической целостности и синтаксической неделимости.
Не айс, конечно, но уже хоть-что для работы с локальными “дисцилированными” LLM-ками…
Кстати-кстати!
Вот ещё нюанс, неочевидный для меня ранее, вскрылся сегодня:
Первый текст (на скрине — см. в рамке):
-
вариант-1:
«Предметом интереса»/«важной характеристикой»/«интересной характеристикой» может быть любая характеристика системы или проекта, типовая для многих проектов, или уникальная только для этого проекта. Температура, срок разработки, возможность регулировки и настройки, время наработки на отказ: предметом интереса может быть любая важная для какой-то проектной роли характеристика. Стоимость, производительность, ремонтопригодность, функции и фичи/возможности системы, сроки годности, безопасность, и так далее: что угодно, что важно для успешного перевода каких-то объектов разными методами работы из одного состояния в другое.
-
вариант-2:
**«П** **редметом интереса** **»** **/** **«** **важной характеристикой** **»** **/** **«** **интересной характеристикой** **»** **может быть** **любая характеристика системы или проекта, типовая для многих проектов, или уникальная только для этого проекта.** Температура, срок разработки, возможность регулировки и настройки, время наработки на отказ: **предметом интереса может быть любая важная для какой-то проектной роли характеристика.** Стоимость, производительность, ремонтопригодность, функции и фичи/возможности системы, сроки годности, безопасность, и так далее: что угодно, что важно для успешного перевода каких-то объектов разными методами работы из одного состояния в другое.
Второй текст (см. на скрине там, где подчёркнуто):
-
вариант-1:
Когда планируют разбить этот предмет интереса на более мелкие, то могут говорить «область/зона интереса»/«area of concern», а в такой области интереса будут несколько частных предметов интереса. Областью интереса может быть любой набор характеристик, которые трудовые/деятельностные/проектные/орг роли считают важными.
-
вариант-2:
Когда планируют разбить этот предмет интереса на более мелкие, то могут говорить «область/зона интереса»/**«** **a** **rea** **of** **concern** **»** , а в такой области интереса будут несколько частных предметов интереса. **Областью интереса** **может быть** **любой набор характеристик, которые трудовые/деятельностные/проектные/орг роли считают важными.**
QwenСhat подвёл итоги:
1. Точность интерпретации ключевых терминов
LLM быстрее и точнее распознаёт устойчивые выражения, такие как «area of concern», как единый термин. Это связано с тем, что модель обучена на текстах, где такие фразы встречаются целиком (например, в академических или профессиональных документах
1
9
.
Пример: В тексте из запроса фраза «area of concern» указывает на проблемную область проекта. Если разбить её на части, модель может ошибочно считать, что «a», «rea», «of» и «concern» — отдельные ключевые слова, что исказит смысл.
Эффективность: Повышение точности на 15–20% , так как модель не тратит ресурсы на анализ лишних разрывов.
2. Скорость токенизации и обработки
При разметке без разрывов (например,
**«area of concern»**
) LLM быстрее разбивает текст на токены, так как символы**
применяются только к началу и концу фразы, а не к каждому слову. Это снижает нагрузку на процессор и ускоряет генерацию ответа.
Пример: В текущем варианте модель обрабатывает 6 токенов (**
,«
,area
,of
,concern
,»
,**
), тогда как при правильной разметке — всего 3 токена (**
,«area of concern»
,**
).
Эффективность: Сокращение времени обработки на 10–15% , особенно заметное в длинных текстах.
3. Снижение риска галлюцинаций
Когда ключевые термины выделены последовательно, LLM меньше склонна к выдумыванию связей между невыделенными словами. Например, в текущем варианте модель может ошибочно решить, что «rea» — это аббревиатура или часть другого термина, если не найдёт аналогов в своих данных
7
.
Пример: В источнике9
фраза «area of concern» используется для описания проблемной зоны в бизнесе. Если разбить её на части, модель может начать придумывать значения для отдельных слов, например, интерпретировать «rea» как «real area» (реальная область), даже если это не указано в тексте.
Эффективность: Снижение риска галлюцинаций на 25–30% , особенно в сложных текстах с профессиональной терминологией.
Итог:
Суммарное повышение эффективности LLM при правильной разметке составит около 20–25% . Это включает:
- +15–20% к точности интерпретации;
- +10–15% к скорости обработки;
- +25–30% к снижению галлюцинаций.
Такой эффект достигается за счёт упрощения анализа текста, последовательного выделения терминов и уменьшения количества ошибок в токенизации. Для сравнения: если использовать разметку без разрывов, LLM будет работать как человек, читающий текст без лишних знаков препинания — быстрее и с меньшим риском ошибок.
Читал я за кенийцев. Видимо и мне, потомку айнов, в ближайшем будущем придётся сменить шкуру…