rStar2-Agent: как 14B модель с агентным RL обходит более крупные модели в математике

августа 30, 2025 · 3 min

Почему «подумать дольше» часто не помогает

Расширение цепочек рассуждений (Chain-of-Thought) помогло моделям улучшить математическое мышление, но длинные внутренние рассуждения часто усиливают ошибки вместо их исправления. Если начальный подход неверен, внутренняя самооценка модели редко обнаруживает и устраняет ошибки.

rStar2-Agent от Microsoft идет другим путем: модель активно использует вычислительные инструменты. Она пишет и выполняет Python-код, анализирует результаты и итеративно улучшает подход. Полная статья доступна по адресу https://arxiv.org/abs/2508.20722

Агентный подход в действии

rStar2-Agent — это 14-миллиардная модель, обученная в агентной среде с подкреплением. В процессе решения задач модель генерирует код, запускает его в Python-окружении, рассматривает вывод и корректирует следующие шаги. Такой интерактивный цикл отражает практику математиков, которые используют вычисления для проверки идей и поиска альтернативных решений.

Таким образом рассуждение превращается в последовательность шагов: предложить гипотезу, выполнить код, проанализировать результат и повторить.

Инфраструктурные решения для масштабного выполнения кода

Агентный тренинг предъявляет большие требования к инфраструктуре: один батч может порождать десятки тысяч одновременных запросов на исполнение кода, что может простаивать GPU.

Команда предложила два ключевых решения:

Распределенный сервис выполнения кода, способный обрабатывать до 45 000 одновременных вызовов с задержками менее секунды. Выполнение изолировано от основного процесса обучения и балансируется по множеству CPU-воркеров.
Динамический планировщик роллаутов, который распределяет работу на основе реального состояния GPU-кэша, а не статических назначений. Это предотвращает простой GPU при неравномерной нагрузке.

Благодаря этим улучшениям весь процесс обучения занял одну неделю на 64 GPU AMD MI300X, что демонстрирует: передовые способности можно получить не только за счет масштабов, но и за счет эффективной организации.

GRPO-RoC: обучение на качественных примерах

Алгоритмическая новелла — Group Relative Policy Optimization with Resampling on Correct (GRPO-RoC). В стандартных RL-схемах модель может получать вознаграждение за правильный итог, даже если промежуточные вызовы инструментов были ошибочны или неэффективны.

GRPO-RoC использует асимметричную стратегию выборки и фильтрации:

Пересэмплирование начальных роллаутов для создания большого пула рассуждений
Сохранение разнообразия неудач, чтобы учиться на разных режимах ошибок
Фильтрация положительных примеров в пользу трэйсов с минимальными ошибками при вызове инструментов и аккуратным форматированием

Это позволяет учиться на качественных успешных примерах и одновременно учитывать разнообразие ошибок. В результате модель эффективнее использует инструменты и выдает более короткие и целенаправленные рассуждения.

Учебная стратегия: от простого к сложному

Обучение проходит в три этапа, чтобы избежать ранних предвзятостей и последовательно формировать привычку к эффективному рассуждению:

Супервайзинг без сложных рассуждений, с акцентом на следование инструкциям и форматирование вызовов инструментов. Ограничение ответа 8000 токенов вынуждает к кратким стратегиям. После этого этапа эффективность на сложных бенчмарках растет с почти нуля до более 70%.
Увеличение лимита до 12 000 токенов для более протяженных рассуждений при сохранении приобретенной эффективности.
Фокус на самых трудных задачах: исключаются задачи, которые модель уже освоила, чтобы обеспечить дальнейший прогресс.

Такой прогресс от кратких к расширенным рассуждениям оптимизирует обучение при разумных вычислительных затратах.

Результаты прорывного уровня и экономия ресурсов

rStar2-Agent-14B показывает 80.6% на AIME24 и 69.8% на AIME25, опережая гораздо большие модели, включая 671B DeepSeek-R1. При этом средняя длина рассуждений составляет около 10 000 токенов против более 17 000 у сопоставимых моделей.

Модель также демонстрирует сильный перенос знаний: хотя обучение в основном велось на математике, она превосходит специализированные модели на научных бенчмарках и остается конкурентоспособной в задачах выравнивания.

Что модель усваивает благодаря инструментам

Анализ обученных трасс показывает два типа высокоэнтропийных токенов. Одни — классические «forking tokens», порождающие внутреннее исследование. Другие — «reflection tokens», которые возникают как реакция на обратную связь от исполнения кода.

Reflection tokens отражают средо-ориентированное рассуждение: модель анализирует результаты выполнения, диагностирует ошибки и корректирует дальнейшие шаги. Это дает более устойчивое решение задач, чем чистое расширение цепочек мыслей.

Выводы и перспективы

rStar2-Agent демонстрирует, что модели умеренного размера могут достичь передовых результатов за счет умной интеграции инструментов, алгоритмических улучшений и оптимизированной инфраструктуры. Агентный подход указывает путь к системам, которые объединяют текстовое рассуждение с активным использованием внешних сред и инструментов, переходя от статичной генерации текста к интерактивному решению задач.

Подробности в статье https://arxiv.org/abs/2508.20722 и на GitHub проекта с туториалами и ноутбуками.