MiroMind-M1: Новый уровень открытого математического интеллекта с многоэтапным обучением с подкреплением
MiroMind-M1 представляет открытую платформу для продвинутого математического анализа, используя инновационное многоэтапное обучение с подкреплением для достижения передовых результатов и полной прозрачности.
Прорыв в математическом мышлении с открытыми моделями
Крупные языковые модели (LLM) продемонстрировали значительный прогресс в многошаговом рассуждении, особенно в решении сложных математических задач. В то время как закрытые модели, такие как GPT-4o и Claude Sonnet 4, лидируют в этой области, их закрытый исходный код ограничивает прозрачность и воспроизводимость. Команда MiroMind AI решила эту проблему, выпустив серию MiroMind-M1 — полностью открытую платформу, включающую датасеты, модели, код обучения и скрипты для оценки. Этот проект устанавливает новые стандарты открытости и передовых возможностей математического анализа в экосистеме модели Qwen-2.5.
Архитектура и методы обучения
MiroMind-M1 построена на базе Qwen-2.5 с улучшениями для математического анализа. Обучение проходит в два этапа:
- Обучение с учителем (SFT): модель дообучается на 719 тысячах тщательно отобранных и проверенных математических задачах, что развивает навыки пошагового рассуждения.
- Обучение с подкреплением с проверяемыми наградами (RLVR): после SFT модель обучается на 62 тысячах сложных задач с помощью RL, используя внешнего проверяющего для точной оценки и выдачи наград.
Такой подход сочетает имитацию цепочки рассуждений и точное вознаграждение за правильность, повышая точность и эффективность.
Качество и прозрачность данных
В проекте MiroMind-M1 особое внимание уделяется полной прозрачности и чистоте данных:
- Корпус SFT включает OpenR1, OpenThoughts, Light-R1 и Synthetic-1 с проверенными решениями и подробными следами рассуждений.
- Жесткая дедупликация и очистка устраняет дубли и утечки данных в сравнении с контрольными наборами, такими как AIME24, AIME25 и MATH500.
- Предпочтение отдается длинным траекториям рассуждений, поскольку они обеспечивают более глубокое понимание и лучшие результаты.
В итоге получен набор из 719 тысяч проверенных обучающих примеров, существенно продвигающий воспроизводимые исследования.
Выдающиеся результаты при тонкой настройке
Модель MiroMind-SFT-7B, основанная на Qwen2.5-Math-7B, обучается с максимальным контекстом до 32 768 токенов и без упаковки для предотвращения смешивания внимания между примерами. Она превосходит аналогичные открытые модели на ключевых тестах:
| Модель | AIME24 | AIME25 | MATH500 | |------------------|--------|--------|---------| | DeepSeek-R1-Distill | 55.5 | 40.4 | 92.8 | | MiMo-7B-SFT | 58.7 | 44.3 | 93.0 | | MiroMind-SFT-7B | 60.4 | 50.4 | 94.6 |
Данные результаты подтверждают эффективность тщательно подобранных данных и архитектурных решений.
CAMPO: Контекстно-осознанная многоэтапная оптимизация политики
Ключевое новшество на этапе RLVR — алгоритм CAMPO, который решает проблемы нестабильности обучения и неэффективного использования токенов:
- Многоэтапное обучение с постепенным увеличением длины вывода, начиная с 16 тысяч токенов, что позволяет углублять рассуждения без потерь в эффективности.
- Динамическое наказание за повторения, предотвращающее излишнюю или раннюю повторяемость, что сохраняет разнообразие ответов.
- Улучшенный внешний проверяющий точно оценивает сложные математические ответы, включая случаи с единицами измерения, числом π и процентами.
CAMPO стабилизирует процесс RL и позволяет моделям решать задачи меньшим количеством релевантных токенов, ускоряя вывод и снижая затраты без потери точности.
Результаты на бенчмарках и эффективность
Открытые модели MiroMind показывают высокие или передовые результаты среди моделей Qwen-2.5 с 7 и 32 миллиардами параметров:
| Модель | AIME24 | AIME25 | MATH500 | |------------------|--------|--------|---------| | DeepSeek-R1-7B | 55.5 | 39.2 | – | | MiMo-7B-RL | 68.2 | 55.4 | 95.8 | | Skywork-OR1-7B | 72.2 | 54.6 | – | | MiroMind-RL-7B | 73.4 | 57.8 | 96.7 | | Skywork-OR1-32B | 77.1 | 68.2 | 97.5 | | MiroMind-RL-32B | 77.5 | 65.6 | 96.4 |
Особенно примечательна модель MiroMind-RL-32B, которая генерирует более короткие и лаконичные решения без потери корректности благодаря CAMPO.
Полный стек и воспроизводимость
Все компоненты MiroMind-M1 доступны открыто:
- Веса моделей для SFT и RL (7B и 32B)
- Полные датасеты (719K для SFT, 62K для RLVR)
- Скрипты обучения с поддержкой распределенного обучения на нескольких узлах
- Код для оценки с унифицированными скриптами и конфигурациями бенчмарков
Такая открытость позволяет воспроизводить, анализировать и развивать проект, ускоряя исследования в области математического интеллекта.
Ресурсы
Для подробностей ознакомьтесь с [статьей], [репозиторием GitHub] и моделью на [Hugging Face]. Следите за командой в Twitter, присоединяйтесь к 100 тысячам участников ML-сообщества на Reddit и подписывайтесь на их рассылку для обновлений.
Switch Language
Read this article in English