Cerebras уменьшила MiniMax-M2 до 162B с помощью REAP, сохранив 10B активных параметров для долгих контекстов и кодирования агентов

Что выпустила Cerebras

Cerebras представила MiniMax-M2-REAP-162B-A10B, сжатую Sparse Mixture-of-Experts (SMoE) каузальную языковую модель, полученную из MiniMax-M2 с помощью метода REAP. Чекпоинт оптимизирован для сценариев с ограниченной памятью, таких как кодирующие агенты и вызов инструментов, — он удаляет экспертов и уменьшает требования к памяти, при этом сохраняя вычислительную нагрузку на токен, близкую к 10B плотной модели.

Архитектура и ключевые характеристики

Основные параметры MiniMax-M2-REAP-162B-A10B:

Базовая модель: MiniMax-M2
Метод сжатия: REAP (Router weighted Expert Activation Pruning)
Всего параметров: 162B
Активных параметров на токен: 10B
Слои: 62 трансформерных блока
Голов внимания в слое: 48
Экспертов: 180, получено путем pruning из конфигурации на 256 экспертов
Активируемых экспертов на токен: 8
Контекстная длина: 196,608 токенов
Лицензия: модифицированная MIT, производная от MiniMaxAI MiniMax M2

SMoE-дизайн означает, что модель хранит 162B параметров, но каждый токен маршрутизируется к небольшому набору экспертов, поэтому эффективные вычисления на токен сопоставимы с 10B плотной моделью, при этом общий масштаб модели остается высоким.

Как REAP сжимает MiniMax-M2

Чекпоинт создан путем применения REAP ко всем MoE-блокам MiniMax M2 с примерно 30% уровнем удаления экспертов. REAP вычисляет показатель значимости эксперта, объединяющий:

Значения роутерных ворот: как часто и с какой силой роутер выбирает эксперт
Нормы активации эксперта: величину вывода эксперта при его активации

Эксперты, которые минимально влияют на выход слоя по этому комбинированному критерию, удаляются. Оставшиеся эксперты сохраняют свои исходные веса, а роутер хранит отдельные ворота для каждого из них. В этом случае сжатие выполняется в один шаг без последующего дообучения.

В теоретическом результате исследования REAP указывается, что слияние экспертов с суммированием ворот вызывает коллапс функционального подпространства: при слиянии роутер теряет независимый, зависящий от входа контроль над экспертами, и единый объединенный эксперт должен аппроксимировать входозависимую смесь, что приводит к необратимой ошибке, если эксперты не идентичны. Pruning же удаляет часть экспертов, но сохраняет независимый контроль у выживших, поэтому ошибка масштабируется с весом ворот удаленных экспертов.

По набору SMoE-моделей в диапазоне от ~20B до 1T параметров REAP стабильно превосходит слияние экспертов и другие критерии при сравнении на генеративных бенчмарках по коду, математике и вызову инструментов, особенно при сильной компрессии.

Точность при 30% удалении экспертов

Cerebras сравнивает три контрольные точки на стандартных бенчмарках для кода, рассуждений и агентных задач:

MiniMax-M2 (230B, базовая модель)
MiniMax-M2-REAP-172B-A10B, 25% pruning
MiniMax-M2-REAP-162B-A10B, 30% pruning

На бенчмарках по коду, таких как HumanEval, HumanEval Plus, MBPP и MBPP Plus, модель 162B REAP остается очень близкой к базовой. HumanEval находится примерно в районе 90%, MBPP в районе 80%, а 172B и 162B версии в основном повторяют поведение оригинала с отклонениями в несколько пунктов.

На тестах рассуждений типа AIME 25 и MATH 500 наблюдаются незначительные сдвиги между моделями, но при 30% pruning не происходит коллапса, и чекпоинт 162B остается конкурентоспособным с базовой моделью.

В задачах вызова инструментов и агентной оценке, представленных τ2 bench в телекоме, 162B REAP также сопоставим с базовой моделью с небольшой дисперсией. В карточке модели указано, что этот чекпоинт сохраняет почти идентичную производительность при примерно 30% меньшем количестве параметров.

Эти результаты соответствуют более широкому исследованию REAP, которое отчитывается о почти без потерь сжатии для генерации кода и вызова инструментов на нескольких крупных SMoE-архитектурах при применении критерия REAP.

Развертывание, использование памяти и пропускная способность

Cerebras предоставляет пример развертывания через vLLM и позиционирует MiniMax-M2-REAP-162B-A10B как drop-in модель для существующих интеграций MiniMax M2. В карточке модели рекомендуется снижать --max-num-seqs, например до 64, если запуск достигает лимитов памяти, чтобы держать размер батча под контролем на конкретном GPU.

vllm serve cerebras/MiniMax-M2-REAP-162B-A10B \
    --tensor-parallel-size 8 \
    --tool-call-parser minimax_m2 \
    --reasoning-parser minimax_m2_append_think \
    --trust-remote-code \
    --enable_expert_parallel \
    --enable-auto-tool-choice

Ключевые выводы

Эффективные вычисления благодаря SMoE: модель хранит 162B параметров, но маршрутизирует токены к небольшому набору экспертов, поэтому вычисления на токен близки к 10B плотной модели.
REAP сохраняет поведение MiniMax-M2: метод Router weighted Expert Activation Pruning удаляет примерно 30% экспертов по значениям ворот роутера и нормам активации, оставляя структуру роутинга и веса выживших экспертов.
Практически без потерь при 30% сжатии: на задачах по коду, рассуждениям и использованию инструментов 162B REAP повторяет поведение 230B MiniMax-M2 с отклонениями в несколько пунктов.
Pruning лучше слияния для генеративных SMoE: REAP избегает функционального коллапса, наблюдаемого при слиянии экспертов, и показывает лучшую работу на больших SMoE для генеративных задач.

Для загрузки модели и дополнительных деталей смотрите карточку модели на Hugging Face и ресурсы проекта.