rStar2-Agent: как 14B модель с агентным RL обходит более крупные модели в математике
Почему «подумать дольше» часто не помогает
Расширение цепочек рассуждений (Chain-of-Thought) помогло моделям улучшить математическое мышление, но длинные внутренние рассуждения часто усиливают ошибки вместо их исправления. Если начальный подход неверен, внутренняя самооценка модели редко обнаруживает и устраняет ошибки.
rStar2-Agent от Microsoft идет другим путем: модель активно использует вычислительные инструменты. Она пишет и выполняет Python-код, анализирует результаты и итеративно улучшает подход. Полная статья доступна по адресу https://arxiv.org/abs/2508.20722
Агентный подход в действии
rStar2-Agent — это 14-миллиардная модель, обученная в агентной среде с подкреплением. В процессе решения задач модель генерирует код, запускает его в Python-окружении, рассматривает вывод и корректирует следующие шаги. Такой интерактивный цикл отражает практику математиков, которые используют вычисления для проверки идей и поиска альтернативных решений.
Таким образом рассуждение превращается в последовательность шагов: предложить гипотезу, выполнить код, проанализировать результат и повторить.
Инфраструктурные решения для масштабного выполнения кода
Агентный тренинг предъявляет большие требования к инфраструктуре: один батч может порождать десятки тысяч одновременных запросов на исполнение кода, что может простаивать GPU.
Команда предложила два ключевых решения:
- Распределенный сервис выполнения кода, способный обрабатывать до 45 000 одновременных вызовов с задержками менее секунды. Выполнение изолировано от основного процесса обучения и балансируется по множеству CPU-воркеров.
- Динамический планировщик роллаутов, который распределяет работу на основе реального состояния GPU-кэша, а не статических назначений. Это предотвращает простой GPU при неравномерной нагрузке.
Благодаря этим улучшениям весь процесс обучения занял одну неделю на 64 GPU AMD MI300X, что демонстрирует: передовые способности можно получить не только за счет масштабов, но и за счет эффективной организации.
GRPO-RoC: обучение на качественных примерах
Алгоритмическая новелла — Group Relative Policy Optimization with Resampling on Correct (GRPO-RoC). В стандартных RL-схемах модель может получать вознаграждение за правильный итог, даже если промежуточные вызовы инструментов были ошибочны или неэффективны.
GRPO-RoC использует асимметричную стратегию выборки и фильтрации:
- Пересэмплирование начальных роллаутов для создания большого пула рассуждений
- Сохранение разнообразия неудач, чтобы учиться на разных режимах ошибок
- Фильтрация положительных примеров в пользу трэйсов с минимальными ошибками при вызове инструментов и аккуратным форматированием
Это позволяет учиться на качественных успешных примерах и одновременно учитывать разнообразие ошибок. В результате модель эффективнее использует инструменты и выдает более короткие и целенаправленные рассуждения.
Учебная стратегия: от простого к сложному
Обучение проходит в три этапа, чтобы избежать ранних предвзятостей и последовательно формировать привычку к эффективному рассуждению:
- Супервайзинг без сложных рассуждений, с акцентом на следование инструкциям и форматирование вызовов инструментов. Ограничение ответа 8000 токенов вынуждает к кратким стратегиям. После этого этапа эффективность на сложных бенчмарках растет с почти нуля до более 70%.
- Увеличение лимита до 12 000 токенов для более протяженных рассуждений при сохранении приобретенной эффективности.
- Фокус на самых трудных задачах: исключаются задачи, которые модель уже освоила, чтобы обеспечить дальнейший прогресс.
Такой прогресс от кратких к расширенным рассуждениям оптимизирует обучение при разумных вычислительных затратах.
Результаты прорывного уровня и экономия ресурсов
rStar2-Agent-14B показывает 80.6% на AIME24 и 69.8% на AIME25, опережая гораздо большие модели, включая 671B DeepSeek-R1. При этом средняя длина рассуждений составляет около 10 000 токенов против более 17 000 у сопоставимых моделей.
Модель также демонстрирует сильный перенос знаний: хотя обучение в основном велось на математике, она превосходит специализированные модели на научных бенчмарках и остается конкурентоспособной в задачах выравнивания.
Что модель усваивает благодаря инструментам
Анализ обученных трасс показывает два типа высокоэнтропийных токенов. Одни — классические «forking tokens», порождающие внутреннее исследование. Другие — «reflection tokens», которые возникают как реакция на обратную связь от исполнения кода.
Reflection tokens отражают средо-ориентированное рассуждение: модель анализирует результаты выполнения, диагностирует ошибки и корректирует дальнейшие шаги. Это дает более устойчивое решение задач, чем чистое расширение цепочек мыслей.
Выводы и перспективы
rStar2-Agent демонстрирует, что модели умеренного размера могут достичь передовых результатов за счет умной интеграции инструментов, алгоритмических улучшений и оптимизированной инфраструктуры. Агентный подход указывает путь к системам, которые объединяют текстовое рассуждение с активным использованием внешних сред и инструментов, переходя от статичной генерации текста к интерактивному решению задач.
Подробности в статье https://arxiv.org/abs/2508.20722 и на GitHub проекта с туториалами и ноутбуками.