NVIDIA представила ProRL: длительное обучение с подкреплением улучшает рассуждения и обобщение в ИИ

Развитие рассуждений с помощью обучения с подкреплением

Последние достижения в области языковых моделей, ориентированных на рассуждения, подчеркивают важность масштабирования вычислений во время тестирования. Обучение с подкреплением (RL) играет ключевую роль в улучшении способностей к рассуждению и предотвращении обхода вознаграждений, однако продолжается дискуссия о том, расширяет ли RL действительно способности к рассуждению или лишь оптимизирует эффективность выборки существующих моделей.

Проблемы текущих исследований RL

Две основные проблемы мешают исследованиям: сильная зависимость от специализированных областей, таких как математика, что часто приводит к переобучению и снижает потенциал исследования, а также преждевременное завершение RL-обучения до того, как новые способности к рассуждению полностью сформируются, обычно ограничиваясь несколькими сотнями шагов.

Введение ProRL от NVIDIA

Исследователи NVIDIA предложили ProRL — метод, позволяющий значительно увеличить длительность RL-обучения (более 2000 шагов) и использовать разнообразные данные для тренировки из областей математики, программирования, науки, логических головоломок и выполнения инструкций. ProRL способствует более глубокому исследованию и открытию новых стратегий рассуждения, выходящих за рамки возможностей базовых моделей.

Nemotron-Research-Reasoning-Qwen-1.5B: прорывная модель

С помощью ProRL была разработана Nemotron-Research-Reasoning-Qwen-1.5B, ведущая в мире модель для рассуждений с 1.5 миллиардами параметров. Она превосходит свою базовую модель DeepSeek-R1-1.5B и даже обходит более крупную DeepSeek-R1-7B по многим тестам, демонстрируя, что длительное RL-обучение позволяет обнаружить новые пути решения, отсутствующие в базовых моделях.

Разнообразный и проверяемый тренировочный набор данных

Исследователи собрали обширный датасет из 136 000 примеров по пяти направлениям: математика, программирование, STEM, логические головоломки и следование инструкциям. Обучение проводилось с использованием фреймворка verl и улучшений метода GRPO. Для оценки применялись престижные тесты, включая AIME2024, AMC, Minerva Math, PRIME validation, HumanevalPlus, головоломки Reasoning Gym, GPQA Diamond и IFEval.

Впечатляющие результаты

Nemotron-Research-Reasoning-Qwen-1.5B показала среднее улучшение на 15.7% по математическим бенчмаркам и 14.4% по точности pass@1 в программировании. В областях STEM и следования инструкциям улучшения составили 25.9% и 22.0% соответственно. Вознаграждение за решение логических задач увеличилось на 54.8%, при этом модель хорошо обобщалась на невиданные задачи. В сравнении с специализированными моделями DeepScaleR-1.5B и DeepCoder-1.5B ProRL-модель показала более высокие результаты pass@1 в математике (+4.6%) и программировании (+6.5%).

Переосмысление потенциала RL в рассуждениях

Это исследование демонстрирует, что длительное и стабильное RL-обучение формирует новые паттерны рассуждений, выходящие за рамки изначальных возможностей модели. ProRL помогает моделям усваивать абстрактные рассуждения, применимые за пределами тренировочных данных, опровергая прежние представления о ограничениях RL и открывая путь к созданию более мощных моделей рассуждений.

Подробности в оригинальной статье и на странице модели. Следите за исследователями в Twitter и присоединяйтесь к ML-сообществу для обновлений.