MiMo-7B от Xiaomi: компактная модель ИИ, превосходящая большие аналоги в математике и программировании

Рост спроса на ИИ с продвинутыми навыками рассуждения

Растущая потребность в системах ИИ, способных выполнять многошаговые логические задачи, математические доказательства и разработку программного обеспечения, стимулирует исследователей улучшать способности моделей к рассуждению. Ранее считавшееся исключительно человеческим навыком, рассуждение сейчас внедряется в компактные модели для повышения их эффективности и доступности.

Трудности создания компактных моделей с навыками рассуждения

Достичь высокого уровня выполнения математических и программных задач в небольшой модели – сложная задача. Большинство успешных моделей в этих областях имеют около 32 миллиардов параметров и более. Малые модели часто сталкиваются с проблемами обобщения, редкой обратной связью в обучении с подкреплением и недостаточно качественными данными, ориентированными на задачи рассуждения.

Существующие подходы и их ограничения

Модели, такие как o-series от OpenAI, DeepSeek R1 и Claude 3.7, используют большое количество параметров и сложные методы обучения с подкреплением, включая поэтапное планирование и откат, чтобы улучшить рассуждение. Однако они сильно зависят от этапа дообучения и меньше внимания уделяют качеству данных на этапе предобучения. Такие модели часто используют фиксированные шаблоны вознаграждения, подверженные обходу, что приводит к нестабильной работе на сложных задачах генерации кода.

Инновационный подход Xiaomi с MiMo-7B

Команда Xiaomi представила семейство моделей MiMo-7B, уделяя равное внимание предобучению и дообучению для развития навыков рассуждения. MiMo-7B-Base обучалась с нуля на наборе данных из 25 триллионов токенов, используя трехэтапную стратегию, постепенно увеличивающую долю математического и программного контента. Введена задача множественного предсказания токенов для повышения производительности и скорости вывода.

Для дообучения использовался тщательно отобранный набор из 130 000 математических и программных задач с оценками сложности. Обучение с подкреплением применяло систему вознаграждения, основанную на сложности, что обеспечило более точную обратную связь. Были созданы две основные версии: MiMo-7B-RL и MiMo-7B-RL-Zero.

Подготовка данных и новшества в предобучении

Разработан специальный HTML-экстрактор для сохранения математических формул и кода из веб-страниц, научных публикаций и книг. Улучшены инструменты парсинга PDF для точной интерпретации научного и программного содержимого. Применена глобальная дедупликация данных. Качество контента оценивали мелкие дообученные модели, заменив устаревшие эвристики. В финальном этапе добавлены синтетические данные для задач рассуждения.

В итоге на втором этапе обучения 70% данных содержали математику и код, а на третьем — дополнительно 10% синтетического контента. Максимальная длина контекста расширена до 32 768 токенов, что позволяет работать с задачами длинных рассуждений.

Улучшения в обучении с подкреплением

Внедрён seamless rollout engine с асинхронным вычислением вознаграждения и ранним завершением, что снизило время простоя GPU, ускорив обучение в 2,29 раза и валидацию — в 1,96 раза. Использованы детальные вознаграждения, основанные на сложности тестов, что решило проблему редкой обратной связи. Приём повторной выборки данных повысил стабильность и эффективность обучения, позволяя модели успешно обучаться даже без предварительной инициализации.

Результаты эффективности

MiMo-7B-Base набрала 75,2 балла в задаче Big-Bench Hard, превзойдя другие открытые модели с 7 миллиардами параметров. MiMo-7B-RL достигла 55,4 балла в бенчмарке AIME 2025, опередив OpenAI o1-mini на 4,7 балла. В задачах генерации кода модель превзошла более крупные аналоги DeepSeek-R1-Zero-32B и Qwen2.5-32B-RL-Zero на LiveCodeBench v5 и v6.

Значение проекта MiMo-7B

Проект демонстрирует, что благодаря оптимизированному предобучению, качеству данных и инфраструктуре обучения с подкреплением компактные модели могут конкурировать и превосходить значительно большие модели в сложных задачах рассуждения. Подход Xiaomi опровергает мнение, что размер модели определяет интеллект и универсальность, и раскрывает потенциал небольших, грамотно сконструированных ИИ.

Основные выводы

MiMo-7B обучалась на 25 триллионах токенов с использованием структурированных смесей данных.
Для обучения с подкреплением использованы 130 000 помеченных по сложности задач.
Трехэтапное предобучение с растущим содержанием математики и кода.
Ускорение обучения с помощью seamless rollout engine.
Превосходство в бенчмарках по сравнению с крупными моделями.
Все варианты модели и контрольные точки доступны публично.

Подробности доступны в официальной статье и репозитории на GitHub.