Галлюцинации не магия: почему LLM уверенно ошибаются и как бенчмарки это поощряют

Галлюцинации как статистическая неизбежность

Большие языковые модели часто выдают уверенные, но неверные ответы, которые выглядят правдоподобно. Новое исследование объясняет эти галлюцинации как естественное следствие статистических свойств генеративного обучения. Даже при чистых данных цель минимизации кросс-энтропии на этапе предобучения создает давление, приводящее к ошибкам, аналогичным ошибкам при супервизорном обучении.

Постановка через простую задачу

Авторы формулируют задачу в виде бинарной классификации Is-It-Valid (IIV): нужно определить, валиден ли ответ модели. Они доказывают, что генеративная ошибка модели как минимум вдвое превышает ошибку в задаче IIV. Это означает, что галлюцинации возникают по тем же причинам, что и ошибки в супервизорных моделях: эпистемическая неопределённость, недостаточная ёмкость модели, сдвиг распределения или шум в данных.

Почему редкие факты вызывают больше галлюцинаций

Важный фактор — доля синглтонов, то есть фактов, встречающихся в обучении только один раз. По аналогии с оценкой недостающей массы в методе Гуда–Тьюринга, если 20% фактов — синглтоны, то как минимум 20% из них будут галлюцированы. Это объясняет, почему модели надёжно отвечают на часто повторяющиеся факты (например, день рождения Эйнштейна), но ошибаются с редкими или малоупомянутыми фактами.

Ограничения класса моделей и систематические ошибки

Галлюцинации также возникают из-за ограничений представления в семействе моделей. Классические примеры: n-граммные модели генерируют неграмотные фразы, а токенизированные модели неправильно считают символы, потому что символы скрыты внутри субсловных токенов. Если класс модели не может выразить паттерн, появляются систематические ошибки, даже если данных достаточно.

Почему пост-тренировка не устраняет переуверенность

Методы пост-тренировки, такие как RLHF, DPO и RLAIF, уменьшают некоторые виды вредных или конспирологических ответов. Тем не менее переуверенные галлюцинации остаются из-за того, как мы оцениваем модели. Если бенчмарки вознаграждают уверенные ответы больше, чем корректную осторожность, модели учатся «блефовать».

Как рейтинги и бенчмарки поощряют угадывание

Большинство популярных тестов используют бинарное оценивание: правильный ответ получает баллы, воздержание не дает баллов, а неверный ответ не карается сильнее, чем воздержание. В таких условиях угадывание максимизирует итоговый счёт, даже если модель не уверена. Честно выражающая неопределённость модель может показывать худшие результаты, чем модель, которая всегда рискует ответить.

Конкретные изменения в оценивании для снижения галлюцинаций

Авторы предлагают социально-технические решения: бенчмарки должны задавать явные целевые уровни уверенности и учитывать их при подсчёте очков. Например: отвечать только если уверенность >75%; ошибка стоит −2 очка, правильный ответ +1, ‘не знаю’ = 0. Такая схема похожа на старые форматы экзаменов с штрафом за слепое угадывание и поощряет воздержание при низкой уверенности, улучшая калибровку моделей.

Широкие последствия для разработки моделей

Рассмотрение галлюцинаций как предсказуемого результата целей обучения и несогласованности оценивания смещает фокус с архитектурных тайн на дизайн оценочных процедур. Выводы показывают: предобучение делает часть галлюцинаций неизбежными, а текущие практики пост-тренировки и бенчмарков могут их укреплять. Пересмотр бенчмарков в пользу поощрения честной неопределённости и штрафов за уверенные ошибки поможет выровнять стимулы и повысить надёжность моделей.

Дополнительные материалы

Статья и технические подробности содержат доказательства и эмпирические результаты. Авторы также предлагают репозиторий на GitHub с примерами, кодом и ноутбуками для воспроизведения экспериментов и проверки альтернатив оценивания.