Революция в математическом мышлении: как 1-shot reinforcement learning улучшает работу LLM
Исследователи показали, что обучение больших языковых моделей с помощью всего одного примера значительно улучшает их способности решать математические задачи, достигая результатов, сопоставимых с обучением на больших наборах данных.
Прорыв в математическом мышлении с помощью LLM
Недавние достижения в области больших языковых моделей (LLM), таких как OpenAI-o1, DeepSeek-R1 и Kimi-1.5, значительно повысили их способности решать сложные математические задачи. Ключевым нововведением стал метод обучения с подкреплением с проверяемой наградой (RLVR), который вознаграждает модели за правильность решения, что способствует развитию таких навыков, как саморефлексия и улучшенная обобщаемость.
Эффективность данных в RLVR: минимальное количество тренировочных примеров
Ранее основное внимание уделялось оптимизации алгоритмов обучения с подкреплением, таких как PPO и GRPO. Однако влияние объема и качества тренировочных данных на эффективность RLVR изучено недостаточно. Ранее работа LIMR показала, что можно сократить размер датасета без потери производительности, но экстремальный случай использования всего нескольких примеров оставался малоизученным.
1-shot RLVR: сила одного примера
Исследователи из Вашингтонского университета, Microsoft, Университета Южной Калифорнии и других организаций продемонстрировали, что обучение LLM с помощью всего одного примера (1-shot RLVR) значительно улучшает математическое мышление моделей. Например, применение этого метода к модели Qwen2.5-Math-1.5B повысило точность на бенчмарке MATH500 с 36,0% до 73,6%, что соответствует результатам, достигнутым на больших датасетах.
Обобщение на разные модели и области
Улучшения, достигнутые с помощью 1-shot RLVR, наблюдаются на различных моделях, задачах и доменах. Поразительно, что обучение на одном примере часто повышает производительность и в неродственных областях — этот эффект назван «пост-насытительным обобщением». Важную роль в успехе играют policy gradient loss и энтропийное исследование.
Выбор данных и детали обучения
В исследовании использовались подмножества датасетов DeepScaleR и MATH для оценки, а также модели Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Llama-3.2-3B-Instruct и DeepSeek-R1-DistillQwen-1.5B. Обучение проводилось с помощью Verl pipeline с тщательно подобранными гиперпараметрами. Обучение на одном-двух конкретных примерах (π1 и π13) привело к сильной обобщаемости, выходящей за рамки математических задач, несмотря на признаки переобучения.
Механизмы успеха 1-shot RLVR
Результаты указывают на то, что базовые LLM уже обладают способностями к рассуждению, которые можно раскрыть с помощью минимального количества примеров. Policy gradient loss является ключевым для эффективности 1-shot RLVR, а энтропийное регуляризирование усиливает исследование и пост-насытительное обобщение.
Значение исследований и перспективы
Это исследование демонстрирует потенциал значительного сокращения объема тренировочных данных без потери качества работы LLM на задачах рассуждения. Также подчеркивается важность тщательного выбора данных и стратегий исследования, особенно в условиях ограниченных ресурсов.
Подробности доступны в оригинальной статье и на GitHub, ссылки на которые приведены в источнике.
Switch Language
Read this article in English