Meta представила MobileLLM-R1: легкая модель для рассуждений на устройстве с менее чем 1 млрд параметров

сентября 15, 2025 · 3 min

Meta опубликовала MobileLLM-R1 на Hugging Face — семейство легковесных моделей для рассуждений на устройстве с размерами от 140M до 950M параметров. Модели ориентированы на эффективное решение задач по математике, программированию и научным рассуждениям на устройствах с ограниченными ресурсами; в обмен они жертвуют общей разговорной универсальностью в пользу точности и экономии вычислений.

Архитектура и конструкция

Флагман MobileLLM-R1-950M включает ряд архитектурных оптимизаций, направленных на снижение вычислительной и памятьной нагрузки при сохранении выразительности:

22 слоя трансформера с 24 головами внимания и 6 сгруппированными KV-главами.
Размер эмбеддинга: 1536; скрытое измерение: 6144.
Grouped-Query Attention (GQA) для снижения вычислений и использования памяти.
Блочное шарингование весов (block-wise weight sharing) для уменьшения числа параметров без существенных задержек.
SwiGLU-активации для улучшения представления в малых моделях.
Длина контекста: 4K для базовых моделей и 32K для посттренированных вариантов.
Словарь 128K с общими входными/выходными эмбеддингами.

Эти решения ориентированы на компактный форм‑фактор, пригодный для размещения на краевых устройствах, с минимизацией требований к KV-кэшу и оперативной памяти.

Эффективность обучения

MobileLLM-R1 выделяется экономией данных. Семейство обучалось примерно на 4.2 трлн токенов в сумме. Для сравнения, модель Qwen3 с 0.6B параметров использовала около 36 трлн токенов. Иными словами, MobileLLM-R1 достигает сопоставимой или лучшей точности, используя примерно 11.7% данных, которые потребовались Qwen3. После базовой предобучения применялась супервизируемая дообучка на датасетах для математики, кода и рассуждений, чтобы усилить профильные навыки.

Такая эффективность снижает затраты на обучение и требования к ресурсам, упрощая разработку целевых решений.

Результаты на бенчмарках

На наборе тестов по математике, рассуждениям и коду MobileLLM-R1-950M демонстрирует значительные преимущества по сравнению с несколькими полностью открытыми моделями:

MATH (MATH500): примерно в 5× выше точность, чем у Olmo-1.24B, и примерно в 2× выше, чем у SmolLM2-1.7B.
Рассуждения и код (GSM8K, AIME, LiveCodeBench): R1-950M сравним или превосходит Qwen3-0.6B, несмотря на гораздо меньший объём обучающих токенов.

В целом R1-950M показывает результаты, характерные для более крупных архитектур, сохраняя при этом меньшее число параметров.

Ограничения и компромиссы

Оптимизация под структуированное рассуждение влечёт за собой ряд ограничений:

Сильные стороны: математика, программирование и формальные/научные рассуждения.
Слабые стороны: общая разговорная речь, здравый смысл и творческие открытые задачи уступают более крупным универсальным LLM.
Лицензия: распространяется под FAIR NC (non-commercial), что ограничивает коммерческое использование в продакшне.
Долгие контексты (32K) увеличивают нагрузку на KV-кэш и потребление памяти при инференсе, что может помешать некоторым сценариям на устройстве.

Сравнение с Qwen3, SmolLM2 и OLMo

Краткая сводка по посттренированным моделям и ключевым метрикам (значения из источника):

MobileLLM-R1-950M: 0.949B параметров, 4.274T токенов обучения, MATH500 74.0, GSM8K 67.5, AIME'24 15.5, AIME'25 16.3, LiveCodeBench 19.9.
Qwen3-0.6B: 0.596B параметров, 36.0T токенов, MATH500 73.0, GSM8K 79.2, AIME'24 11.3, AIME'25 17.0, LiveCodeBench 14.9.
SmolLM2-1.7B-Instruct: 1.71B параметров, ~11.0T токенов, MATH500 19.2, GSM8K 41.8, AIME'24 0.3, AIME'25 0.1, LiveCodeBench 4.4.
OLMo-2-1B-Instruct: 1.48B параметров, ~3.95T токенов, MATH500 19.2, GSM8K 69.7, AIME'24 0.6, AIME'25 0.1, LiveCodeBench 0.0.

Ключевые наблюдения:

R1-950M сопоставим или немного превосходит Qwen3-0.6B по MATH500 (74.0 против 73.0), при этом обучаясь примерно в 8.6 раза на меньшем числе токенов.
Разрыв с SmolLM2 и OLMo по задачам рассуждений значителен.
Qwen3 держит преимущество на GSM8K, но разрыв невелик по сравнению с преимуществом MobileLLM-R1 в эффективности обучения.

Значение для краевых сценариев

MobileLLM-R1 демонстрирует тенденцию к использованию меньших, профильных моделей, которые обеспечивают конкурентные способности в рассуждениях без больших бюджетов на обучение. Для разработчиков, которые строят локальные ассистенты для математики и кода, MobileLLM-R1 предлагает интересный компромисс между точностью и затратами, при условии соблюдения лицензионных и функциональных ограничений. Модели доступны на Hugging Face; дополнительные материалы и руководства опубликованы на GitHub и в сообществе.