ProRLv2: NVIDIA удлиняет RL до 3000 шагов и усиливает способность LLM к рассуждению
ProRLv2 увеличивает горизонт RL до 3000 шагов и демонстрирует значительные улучшения рассуждения в компактных языковых моделях, подтверждённые приростами по математике, кодированию и логике.
ProRLv2 — следующий шаг NVIDIA в применении продлённого усиленного обучения к большим языковым моделям. Увеличивая горизонт RL с 2000 до 3000 шагов и сочетая это с мерами стабилизации и исследования, ProRLv2 показывает, что продлённое RL может существенно расширить способности к рассуждению, творчеству и поиску решений даже у относительно небольших моделей.
Что меняет ProRLv2 в обучении
ProRLv2 проверяет гипотезу о том, что более длинные траектории RL позволяют моделям исследовать пространства решений, недоступные при коротких расписаниях. Вместо остановки на стандартных коротких RL-эпизодах ProRLv2 растягивает окно оптимизации и добавляет алгоритмические предохранители, чтобы избежать нестабильности и коллапса при длительной тренировке.
Основные нововведения
NVIDIA объединяет несколько методов, чтобы обеспечить долгую тренировку RL для LLM:
- REINFORCE++ Baseline: более устойчивый вариант градиентного оптимизатора политики, адаптированный для тысяч шагов RL, что уменьшает нестабильность при продлённом обучении.
- Регуляризация по KL и сброс эталонной политики: периодическая подмена эталонной модели на текущий лучший чекпойнт стабилизирует обучение и не даёт RL-цели преждевременно захватить обучение.
- Decoupled Clipping & Dynamic Sampling (DAPO): стимулирует поиск разнообразных решений за счёт повышения веса маловероятных токенов и фокусировки обучения на промптах средней сложности.
- Запланированный штраф за длину: применяется циклично для поддержания разнообразия выходов и предотвращения коллапса энтропии по мере удлинения обучения.
- Масштабирование шагов RL: ключевой эксперимент — переход от 2000 к 3000 шагам RL, чтобы проверить, насколько дальше можно расширить возможности рассуждения.
Как продлённый RL расширяет рассуждение
При применении к Nemotron-Research-Reasoning-Qwen-1.5B-v2 ProRLv2 даёт существенные улучшения по задачам рассуждения. Модель, обученная на 3000 шагах RL, демонстрирует:
- Значительные приросты pass@1 по сравнению с предыдущими версиями и конкурентами на 1.5B.
- Непрерывное улучшение по мере увеличения шагов RL, особенно на задачах, где базовая модель была слабой.
- Обобщение на невиданные задачи и появление новых стратегий решения, которых не было в данных обучения.
Отчётные приросты включают средние улучшения pass@1: 14.7% в математике, 13.9% в кодировании, 54.8% в логических задачах, 25.1% в задачах STEM и 18.1% в задачах следования инструкциям, а также дальнейшие улучшения на более сложных невиданных бенчмарках в v2.
Практический доступ: Nemotron-Research-Reasoning-Qwen-1.5B-v2
Последний чекпойнт доступен для тестирования на Hugging Face. Загрузите модель через Transformers, как показано ниже:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")Почему это важно для масштабирования моделей и исследований RL
Главный вывод ProRLv2 в том, что масштабирование самого RL — важный рычаг для улучшения рассуждения, не менее значимый, чем размер модели или объём данных. При аккуратной регуляризации и стратегиях исследования компактные архитектуры способны выучивать более глубокие, креативные и обобщаемые приёмы рассуждения. Это смещает часть исследовательского вектора: вместо того, чтобы фокусироваться только на увеличении размеров моделей, стоит вкладываться и в удлинение и стабилизацию RL-расписаний.
Switch Language
Read this article in English