Удивительный рост математического мышления в Qwen2.5-Math при обучении на неверных и случайных наградах

Усиленное обучение с проверяемыми наградами в NLP

В обработке естественного языка (NLP) методы усиленного обучения (RL), такие как RL с человеческой обратной связью (RLHF), применяются для улучшения ответов моделей за счет оптимизации на основе сигналов обратной связи. Усиленное обучение с проверяемыми наградами (RLVR) расширяет этот подход, используя автоматические сигналы — математическую корректность или синтаксические признаки — что позволяет масштабно настраивать языковые модели. RLVR особенно интересен тем, что обещает улучшить способности моделей к рассуждению без обширного человеческого надзора, исследуя, как модели могут обучаться математическому, логическому или структурному мышлению при ограниченном контроле.

Проблемы обучения при неполном контроле

Создание моделей, способных эффективно рассуждать при минимальном или шумном контроле, остается вызовом. В задачах решения математических задач невозможность иметь идеальные метки данных на больших объемах вызывает вопрос, могут ли модели учиться на неверных или шумных сигналах. Слишком сильная зависимость от идеальной обратной связи ухудшает обобщаемость и ограничивает практическое применение.

Исследование различных сигналов награды на Qwen2.5-Math

Группа исследователей из Университета Вашингтона, Института Аллена и Калифорнийского университета в Беркли проверила разные типы наград на Qwen2.5-Math — семействе моделей, обученных для математического мышления. Они использовали награды с опорой на истинные ответы, большинство голосов, формат вывода, случайные и неверные награды. Удивительно, что даже полностью ложные сигналы, например случайные или неверные награды, приводили к значительному улучшению результатов.

Пример улучшений для Qwen2.5-Math-7B на наборе MATH-500:

Истинные награды: +28.8% точности
Неверные метки: +24.6%
Случайные награды: +21.4%
Форматные награды: +16.4%
Большинство голосов: +26.5%

Модель Qwen2.5-Math-1.5B также показала сильные улучшения, например +24.4% с неверными метками. При этом другие модели, такие как Llama3 и OLMo2, не получили пользы, а иногда показали ухудшение при ложных наградах.

Появление поведения "кодового рассуждения"

Ключевое наблюдение: модели Qwen всё чаще генерировали математические решения в виде кода, особенно похожего на Python, независимо от типа награды. Частота такого "кодового рассуждения" выросла с 66.7% до более чем 90% при обучении с ложными наградами. Ответы с кодовым рассуждением достигали около 64% точности против 29% у остальных. Это говорит о том, что ложные награды активируют скрытые способности, заложенные в модели на этапе предварительного обучения, а не обучают новым навыкам.

Надёжность и зависимость от архитектуры

Значительные улучшения от случайных и неверных наград почти сравнимы с результатами от истинных наград, особенно для моделей Qwen. Подобные тенденции наблюдались на других задачах, например AMC и AIME2024, хотя истинные награды всё же сохраняли преимущество. Модели вне семейства Qwen, такие как Llama3.1-8B, показали снижение производительности до 8.5% при ложных наградах, что подчеркивает специфику результатов.

Основные выводы

Qwen2.5-Math-7B повысила точность на 28.8% с истинными наградами и на 24.6% с неверными.
Кодовое рассуждение выросло и улучшило качество ответов.
Другие модели не получили выгоды и иногда ухудшились.
Улучшения появлялись быстро, уже после 50 шагов обучения.
Необходимо осторожно распространять результаты RLVR с моделей Qwen на другие архитектуры.

Эти результаты подчеркивают важность проверки методов RLVR на различных моделях, а не только на Qwen.

Дополнительные материалы

Подробности доступны в исходной статье, официальном релизе и на GitHub. Следите за обновлениями в Twitter и присоединяйтесь к сообществу ML на Reddit для обсуждений.