Революция в математическом мышлении: как 1-shot reinforcement learning улучшает работу LLM

Прорыв в математическом мышлении с помощью LLM

Недавние достижения в области больших языковых моделей (LLM), таких как OpenAI-o1, DeepSeek-R1 и Kimi-1.5, значительно повысили их способности решать сложные математические задачи. Ключевым нововведением стал метод обучения с подкреплением с проверяемой наградой (RLVR), который вознаграждает модели за правильность решения, что способствует развитию таких навыков, как саморефлексия и улучшенная обобщаемость.

Эффективность данных в RLVR: минимальное количество тренировочных примеров

Ранее основное внимание уделялось оптимизации алгоритмов обучения с подкреплением, таких как PPO и GRPO. Однако влияние объема и качества тренировочных данных на эффективность RLVR изучено недостаточно. Ранее работа LIMR показала, что можно сократить размер датасета без потери производительности, но экстремальный случай использования всего нескольких примеров оставался малоизученным.

1-shot RLVR: сила одного примера

Исследователи из Вашингтонского университета, Microsoft, Университета Южной Калифорнии и других организаций продемонстрировали, что обучение LLM с помощью всего одного примера (1-shot RLVR) значительно улучшает математическое мышление моделей. Например, применение этого метода к модели Qwen2.5-Math-1.5B повысило точность на бенчмарке MATH500 с 36,0% до 73,6%, что соответствует результатам, достигнутым на больших датасетах.

Обобщение на разные модели и области

Улучшения, достигнутые с помощью 1-shot RLVR, наблюдаются на различных моделях, задачах и доменах. Поразительно, что обучение на одном примере часто повышает производительность и в неродственных областях — этот эффект назван «пост-насытительным обобщением». Важную роль в успехе играют policy gradient loss и энтропийное исследование.

Выбор данных и детали обучения

В исследовании использовались подмножества датасетов DeepScaleR и MATH для оценки, а также модели Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Llama-3.2-3B-Instruct и DeepSeek-R1-DistillQwen-1.5B. Обучение проводилось с помощью Verl pipeline с тщательно подобранными гиперпараметрами. Обучение на одном-двух конкретных примерах (π1 и π13) привело к сильной обобщаемости, выходящей за рамки математических задач, несмотря на признаки переобучения.

Механизмы успеха 1-shot RLVR

Результаты указывают на то, что базовые LLM уже обладают способностями к рассуждению, которые можно раскрыть с помощью минимального количества примеров. Policy gradient loss является ключевым для эффективности 1-shot RLVR, а энтропийное регуляризирование усиливает исследование и пост-насытительное обобщение.

Значение исследований и перспективы

Это исследование демонстрирует потенциал значительного сокращения объема тренировочных данных без потери качества работы LLM на задачах рассуждения. Также подчеркивается важность тщательного выбора данных и стратегий исследования, особенно в условиях ограниченных ресурсов.

Подробности доступны в оригинальной статье и на GitHub, ссылки на которые приведены в источнике.