По всем вопросам звоните:

+7 495 274-22-22

Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры

Международная команда с участием исследователей ФКН НИУ ВШЭ представила KoWit-24 — корпус из 2700 русскоязычных заголовков «Коммерсанта» с игрой слов. Корпус позволил оценить, как искусственный интеллект распознает и объясняет языковую игру. Эксперименты с пятью большими языковыми моделями подтвердили: даже передовые системы пока ошибаются, причем интерпретация игры слов является для них более сложной задачей, чем ее выявление. Результаты работы были представлены на конференции RANLP, cтатья доступна в репозитории Arxiv.org, датасет и код для воспроизведения экспериментов — в GitHub.

Игра слов — это прием, когда автор специально ломает норму языка ради эффекта: чтобы привлечь внимание, усилить иронию или вызвать улыбку. В российских новостных заголовках такие приемы встречаются часто и могут выглядеть по-разному. Например, «Особо бумажные персоны» обыгрывает фразу «особо важные персоны»: «важные» рифмуются с «бумажные», и смысл сдвигается к производству бумаги. Или «Код накликал» звучит почти так же, как идиома «кот наплакал» (очень мало), что создает шутливую двусмысленность.

Для читателя такая игра слов очевидна и заголовки не нуждаются в пояснении. Однако современные большие языковые модели, например ChatGPT или GigaChat Max, часто теряются: им трудно заметить каламбур и тем более объяснить, на чем построена шутка. Одна из причин — это ограниченность наборов данных, на которых обучаются языковые модели. Чаще всего юмор в них представлен короткими шутками из интернета, которые помечены ярлыком «шутка». Этого мало, чтобы алгоритм понял, почему это смешно. Кроме того, у таких наборов почти нет разметки — понятных машине и человеку слоев описания, которые могут показывать, есть ли там игра слов или нет, какой это тип приема, к чему отсылает заголовок и т.д.

Исследователи факультета компьютерных наук НИУ ВШЭ вместе с коллегами из Австрийского университета междисциплинарных трансформаций, а также независимыми исследователями создали набор данных KoWit-24. Он содержит 2700 заголовков «Коммерсанта» за январь 2021 года — декабрь 2023-го с контекстом: к каждому заголовку приложены подводка к статье, название рубрики и краткое описание сюжета. Для примеров с игрой слов авторы вручную отметили тип приема, выделили «якоря» — ключевые слова, где происходит смысловой сдвиг, указали исходные выражения и добавили ссылки на статьи в «Википедии» там, где это возможно.

Авторы работы использовали определение лингвиста Алана Скотта Партингтона: игра слов возникает, когда одна и та же фраза читается минимум двумя способами, и этот эффект не случаен. При этом игра слов может возникать в нескольких случаях. Первый, когда двусмысленность заложена в самом слове или в его звучании. Например, заголовок «“Волгу” не могут заставить течь быстрее»: «Волга» здесь и река, и название федеральной трассы. Второй — легкая переделка известной фразы или названия: автор меняет форму, а читатель узнает исходник и достраивает шутку. Например, «Миссия сократима» отсылает к фильму «Миссия невыполнима» и одновременно намекает, что дипломатическую миссию можно сократить.

Для Цитирования:
Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры. Ректор ВУЗа. 2026;2.
Полная версия статьи доступна подписчикам журнала
Язык статьи:
Действия с выбранными: