Meta представила MobileLLM-R1: легкая модель для рассуждений на устройстве с менее чем 1 млрд параметров
Meta опубликовала MobileLLM-R1 на Hugging Face — семейство легковесных моделей для рассуждений на устройстве с размерами от 140M до 950M параметров. Модели ориентированы на эффективное решение задач по математике, программированию и научным рассуждениям на устройствах с ограниченными ресурсами; в обмен они жертвуют общей разговорной универсальностью в пользу точности и экономии вычислений.
Архитектура и конструкция
Флагман MobileLLM-R1-950M включает ряд архитектурных оптимизаций, направленных на снижение вычислительной и памятьной нагрузки при сохранении выразительности:
- 22 слоя трансформера с 24 головами внимания и 6 сгруппированными KV-главами.
- Размер эмбеддинга: 1536; скрытое измерение: 6144.
- Grouped-Query Attention (GQA) для снижения вычислений и использования памяти.
- Блочное шарингование весов (block-wise weight sharing) для уменьшения числа параметров без существенных задержек.
- SwiGLU-активации для улучшения представления в малых моделях.
- Длина контекста: 4K для базовых моделей и 32K для посттренированных вариантов.
- Словарь 128K с общими входными/выходными эмбеддингами.
Эти решения ориентированы на компактный форм‑фактор, пригодный для размещения на краевых устройствах, с минимизацией требований к KV-кэшу и оперативной памяти.
Эффективность обучения
MobileLLM-R1 выделяется экономией данных. Семейство обучалось примерно на 4.2 трлн токенов в сумме. Для сравнения, модель Qwen3 с 0.6B параметров использовала около 36 трлн токенов. Иными словами, MobileLLM-R1 достигает сопоставимой или лучшей точности, используя примерно 11.7% данных, которые потребовались Qwen3. После базовой предобучения применялась супервизируемая дообучка на датасетах для математики, кода и рассуждений, чтобы усилить профильные навыки.
Такая эффективность снижает затраты на обучение и требования к ресурсам, упрощая разработку целевых решений.
Результаты на бенчмарках
На наборе тестов по математике, рассуждениям и коду MobileLLM-R1-950M демонстрирует значительные преимущества по сравнению с несколькими полностью открытыми моделями:
- MATH (MATH500): примерно в 5× выше точность, чем у Olmo-1.24B, и примерно в 2× выше, чем у SmolLM2-1.7B.
- Рассуждения и код (GSM8K, AIME, LiveCodeBench): R1-950M сравним или превосходит Qwen3-0.6B, несмотря на гораздо меньший объём обучающих токенов.
В целом R1-950M показывает результаты, характерные для более крупных архитектур, сохраняя при этом меньшее число параметров.
Ограничения и компромиссы
Оптимизация под структуированное рассуждение влечёт за собой ряд ограничений:
- Сильные стороны: математика, программирование и формальные/научные рассуждения.
- Слабые стороны: общая разговорная речь, здравый смысл и творческие открытые задачи уступают более крупным универсальным LLM.
- Лицензия: распространяется под FAIR NC (non-commercial), что ограничивает коммерческое использование в продакшне.
- Долгие контексты (32K) увеличивают нагрузку на KV-кэш и потребление памяти при инференсе, что может помешать некоторым сценариям на устройстве.
Сравнение с Qwen3, SmolLM2 и OLMo
Краткая сводка по посттренированным моделям и ключевым метрикам (значения из источника):
- MobileLLM-R1-950M: 0.949B параметров, 4.274T токенов обучения, MATH500 74.0, GSM8K 67.5, AIME'24 15.5, AIME'25 16.3, LiveCodeBench 19.9.
- Qwen3-0.6B: 0.596B параметров, 36.0T токенов, MATH500 73.0, GSM8K 79.2, AIME'24 11.3, AIME'25 17.0, LiveCodeBench 14.9.
- SmolLM2-1.7B-Instruct: 1.71B параметров, ~11.0T токенов, MATH500 19.2, GSM8K 41.8, AIME'24 0.3, AIME'25 0.1, LiveCodeBench 4.4.
- OLMo-2-1B-Instruct: 1.48B параметров, ~3.95T токенов, MATH500 19.2, GSM8K 69.7, AIME'24 0.6, AIME'25 0.1, LiveCodeBench 0.0.
Ключевые наблюдения:
- R1-950M сопоставим или немного превосходит Qwen3-0.6B по MATH500 (74.0 против 73.0), при этом обучаясь примерно в 8.6 раза на меньшем числе токенов.
- Разрыв с SmolLM2 и OLMo по задачам рассуждений значителен.
- Qwen3 держит преимущество на GSM8K, но разрыв невелик по сравнению с преимуществом MobileLLM-R1 в эффективности обучения.
Значение для краевых сценариев
MobileLLM-R1 демонстрирует тенденцию к использованию меньших, профильных моделей, которые обеспечивают конкурентные способности в рассуждениях без больших бюджетов на обучение. Для разработчиков, которые строят локальные ассистенты для математики и кода, MobileLLM-R1 предлагает интересный компромисс между точностью и затратами, при условии соблюдения лицензионных и функциональных ограничений. Модели доступны на Hugging Face; дополнительные материалы и руководства опубликованы на GitHub и в сообществе.