MiroMind-M1: Новый уровень открытого математического интеллекта с многоэтапным обучением с подкреплением

Прорыв в математическом мышлении с открытыми моделями

Крупные языковые модели (LLM) продемонстрировали значительный прогресс в многошаговом рассуждении, особенно в решении сложных математических задач. В то время как закрытые модели, такие как GPT-4o и Claude Sonnet 4, лидируют в этой области, их закрытый исходный код ограничивает прозрачность и воспроизводимость. Команда MiroMind AI решила эту проблему, выпустив серию MiroMind-M1 — полностью открытую платформу, включающую датасеты, модели, код обучения и скрипты для оценки. Этот проект устанавливает новые стандарты открытости и передовых возможностей математического анализа в экосистеме модели Qwen-2.5.

Архитектура и методы обучения

MiroMind-M1 построена на базе Qwen-2.5 с улучшениями для математического анализа. Обучение проходит в два этапа:

Обучение с учителем (SFT): модель дообучается на 719 тысячах тщательно отобранных и проверенных математических задачах, что развивает навыки пошагового рассуждения.
Обучение с подкреплением с проверяемыми наградами (RLVR): после SFT модель обучается на 62 тысячах сложных задач с помощью RL, используя внешнего проверяющего для точной оценки и выдачи наград.

Такой подход сочетает имитацию цепочки рассуждений и точное вознаграждение за правильность, повышая точность и эффективность.

Качество и прозрачность данных

В проекте MiroMind-M1 особое внимание уделяется полной прозрачности и чистоте данных:

Корпус SFT включает OpenR1, OpenThoughts, Light-R1 и Synthetic-1 с проверенными решениями и подробными следами рассуждений.
Жесткая дедупликация и очистка устраняет дубли и утечки данных в сравнении с контрольными наборами, такими как AIME24, AIME25 и MATH500.
Предпочтение отдается длинным траекториям рассуждений, поскольку они обеспечивают более глубокое понимание и лучшие результаты.

В итоге получен набор из 719 тысяч проверенных обучающих примеров, существенно продвигающий воспроизводимые исследования.

Выдающиеся результаты при тонкой настройке

Модель MiroMind-SFT-7B, основанная на Qwen2.5-Math-7B, обучается с максимальным контекстом до 32 768 токенов и без упаковки для предотвращения смешивания внимания между примерами. Она превосходит аналогичные открытые модели на ключевых тестах:

| Модель | AIME24 | AIME25 | MATH500 | |------------------|--------|--------|---------| | DeepSeek-R1-Distill | 55.5 | 40.4 | 92.8 | | MiMo-7B-SFT | 58.7 | 44.3 | 93.0 | | MiroMind-SFT-7B | 60.4 | 50.4 | 94.6 |

Данные результаты подтверждают эффективность тщательно подобранных данных и архитектурных решений.

CAMPO: Контекстно-осознанная многоэтапная оптимизация политики

Ключевое новшество на этапе RLVR — алгоритм CAMPO, который решает проблемы нестабильности обучения и неэффективного использования токенов:

Многоэтапное обучение с постепенным увеличением длины вывода, начиная с 16 тысяч токенов, что позволяет углублять рассуждения без потерь в эффективности.
Динамическое наказание за повторения, предотвращающее излишнюю или раннюю повторяемость, что сохраняет разнообразие ответов.
Улучшенный внешний проверяющий точно оценивает сложные математические ответы, включая случаи с единицами измерения, числом π и процентами.

CAMPO стабилизирует процесс RL и позволяет моделям решать задачи меньшим количеством релевантных токенов, ускоряя вывод и снижая затраты без потери точности.

Результаты на бенчмарках и эффективность

Открытые модели MiroMind показывают высокие или передовые результаты среди моделей Qwen-2.5 с 7 и 32 миллиардами параметров:

| Модель | AIME24 | AIME25 | MATH500 | |------------------|--------|--------|---------| | DeepSeek-R1-7B | 55.5 | 39.2 | – | | MiMo-7B-RL | 68.2 | 55.4 | 95.8 | | Skywork-OR1-7B | 72.2 | 54.6 | – | | MiroMind-RL-7B | 73.4 | 57.8 | 96.7 | | Skywork-OR1-32B | 77.1 | 68.2 | 97.5 | | MiroMind-RL-32B | 77.5 | 65.6 | 96.4 |

Особенно примечательна модель MiroMind-RL-32B, которая генерирует более короткие и лаконичные решения без потери корректности благодаря CAMPO.

Полный стек и воспроизводимость

Все компоненты MiroMind-M1 доступны открыто:

Веса моделей для SFT и RL (7B и 32B)
Полные датасеты (719K для SFT, 62K для RLVR)
Скрипты обучения с поддержкой распределенного обучения на нескольких узлах
Код для оценки с унифицированными скриптами и конфигурациями бенчмарков

Такая открытость позволяет воспроизводить, анализировать и развивать проект, ускоряя исследования в области математического интеллекта.

Ресурсы

Для подробностей ознакомьтесь с [статьей], [репозиторием GitHub] и моделью на [Hugging Face]. Следите за командой в Twitter, присоединяйтесь к 100 тысячам участников ML-сообщества на Reddit и подписывайтесь на их рассылку для обновлений.