Новый датасет учит ИИ признавать неопределённость и снижать галлюцинации в языковых моделях

Проблема галлюцинаций при дообучении с подкреплением

Дообучение с подкреплением улучшает большие языковые модели (БЯМ), используя сигналы вознаграждения для поощрения логичных и структурированных ответов. Однако модели часто не умеют признавать неопределённость при неполных или неоднозначных запросах. Вместо отказа они выдают уверенные, но неправильные ответы — это явление получило название «налог на галлюцинации». Особенно это критично в сферах, требующих точности и доверия.

Ограничения существующих методов обучения

Большинство методов дообучения с подкреплением вознаграждают правильные ответы и штрафуют неправильные, но не поощряют отказ от ответа. В результате модели становятся излишне уверенными и почти не отказываются отвечать на непонятные вопросы. Исследования показывают, что после стандартного дообучения уровень отказов падает почти до нуля.

Представление датасета Synthetic Unanswerable Math (SUM)

Исследователи из Университета Южной Калифорнии создали датасет SUM для решения этой задачи. SUM формирует неотвечаемые математические задачи, изменяя существующие вопросы — убирая ключевую информацию или создавая логические противоречия, сохраняя их правдоподобие. Используя DeepScaleR как базовый датасет и модель o3-mini для генерации вопросов, SUM учит модели отвечать "Я не знаю", если вопрос не имеет однозначного решения.

Стратегия обучения и результаты

Смешивая 10% данных SUM с обычными, модели учатся распознавать неопределённость и отказываться от ответа, не снижая точность по решаемым задачам. Например, у модели Qwen2.5-7B уровень отказов на бенчмарках SUM вырос с 0.01 до 0.73, на UMWP — с 0.01 до 0.81, а точность отказов на SelfAware увеличилась с 0.01 до 0.94. Похожая динамика наблюдалась у Llama-3.1-8B-Instruct. При этом точность на задачах GSM8K и MATH-500 осталась стабильной, с минимальным снижением.

Значение для доверия к ИИ

Такой подход показывает важный баланс: дообучение с подкреплением часто подавляет осторожность, но добавление небольшого объёма данных с неотвечаемыми задачами помогает моделям осознавать свои ограничения. Обучение ИИ говорить "Я не знаю" делает системы более надёжными и честными, что является важным прогрессом в развитии искусственного интеллекта.

Дополнительные материалы

Статья и датасет доступны на Hugging Face. Все заслуги принадлежат исследователям из Университета Южной Калифорнии.