Polaris-4B и Polaris-7B: масштабируемое обучение с подкреплением для продвинутого математического и логического рассуждения

Растущая потребность в масштабируемых моделях рассуждения

Передовые модели рассуждения играют ключевую роль в машинном интеллекте, особенно в задачах решения математических проблем и символического рассуждения. Эти модели способны выполнять многошаговые вычисления и логические выводы, имитируя человеческие процессы мышления. Хотя методы обучения с подкреплением применяются после предварительного обучения для повышения точности, эффективное масштабирование таких методов остаётся сложной задачей. Исследователи стремятся создать небольшие, ресурсоэффективные модели с высокой способностью к рассуждению, обращая внимание на качество данных, методы исследования и обобщение на длинных контекстах.

Проблемы обучения с подкреплением для крупных моделей

Существенной проблемой является несоответствие сложности задач и возможностей модели. Слишком простые задачи ведут к застою в обучении, а слишком сложные — не дают обучающего сигнала. Этот дисбаланс особенно заметен при применении методов, разработанных для небольших моделей, к большим архитектурам. Кроме того, отсутствуют механизмы для динамической адаптации разнообразия выборок и длины вывода во время обучения и инференса, что ограничивает способности модели решать сложные задачи.

Ограничения существующих методов пост-тренировки

Ранее методы вроде DeepScaleR и GRPO успешно улучшали небольшие модели с примерно 1.5 миллиарда параметров. Однако при применении к более крупным моделям, таким как Qwen3-4B или Deepseek-R1-Distill-Qwen-7B, улучшения минимальны или наблюдается снижение производительности. Это связано со статичным распределением данных и ограниченной разнообразностью выборок, без учёта возможностей модели и динамического контроля температуры сэмплинга и длины ответов.

Представляем Polaris: новая методика масштабируемого обучения с подкреплением

Исследователи из Университета Гонконга, Bytedance Seed и Университета Фудань разработали Polaris — метод пост-тренировки, адаптированный для сложных задач рассуждения. Polaris включает две модели: Polaris-4B-Preview (тонкая настройка с Qwen3-4B) и Polaris-7B-Preview (на базе Deepseek-R1-Distill-Qwen-7B). Эта модель-независимая методика регулирует сложность данных, поддерживает разнообразие выборок через контроль температуры сэмплинга и расширяет длину контекста инференса. Модели оптимизированы для запуска на потребительских GPU с использованием открытых данных и пайплайнов.

Инновации Polaris

Polaris отбирает задачи для обучения, исключая слишком простые или неразрешимые, создавая сбалансированное J-образное распределение сложности, которое адаптируется к росту возможностей модели. Температура сэмплинга динамически меняется во время обучения — 1.4, 1.45 и 1.5 для Polaris-4B; 0.7, 1.0 и 1.1 для Polaris-7B — чтобы обеспечить разнообразие выборок. Метод Yarn позволяет увеличить длину контекста инференса до 96 тысяч токенов без дополнительного обучения, реализуя подход "train-short, test-long". Дополнительно используются механизмы Rollout Rescue и Intra-Batch Informative Substitution для предотвращения нулевых наград и сохранения ценных сигналов при небольших размерах rollout (8).

Результаты на бенчмарках

Модели Polaris показывают передовые результаты на различных математических тестах. Polaris-4B-Preview достигает 81.2% точности на AIME24 и 79.4% на AIME25, превосходя Qwen3-32B с использованием менее 2% параметров. Также она набирает 44.0% на Minerva Math, 69.1% на Olympiad Bench и 94.8% на AMC23. Polaris-7B-Preview показывает 72.6% на AIME24 и 52.6% на AIME25. Эти показатели лучше моделей Claude-4-Opus и Grok-3-Beta, демонстрируя, что Polaris — конкурентоспособная лёгкая модель, которая сокращает разрыв между малыми открытыми и крупными коммерческими моделями с более чем 30 миллиардами параметров.

Эффективное обучение с подкреплением благодаря умным стратегиям пост-тренировки

Ключ к масштабированию моделей рассуждения — не просто увеличение размера, а умное управление сложностью данных, разнообразием сэмплинга и длиной инференса. Polaris предлагает воспроизводимый рецепт, который эффективно настраивает эти параметры, позволяя небольшим моделям конкурировать с мощными коммерческими системами.

Ознакомьтесь с моделью и кодом для подробностей. Все заслуги принадлежат исследователям проекта.