Cerebras уменьшила MiniMax-M2 до 162B с помощью REAP, сохранив 10B активных параметров для долгих контекстов и кодирования агентов
Cerebras представила MiniMax-M2-REAP-162B-A10B — 30% REAP-прюнинг экспертов уменьшает память без заметной потери качества на задачах кода, рассуждений и вызова инструментов.
Что выпустила Cerebras
Cerebras представила MiniMax-M2-REAP-162B-A10B, сжатую Sparse Mixture-of-Experts (SMoE) каузальную языковую модель, полученную из MiniMax-M2 с помощью метода REAP. Чекпоинт оптимизирован для сценариев с ограниченной памятью, таких как кодирующие агенты и вызов инструментов, — он удаляет экспертов и уменьшает требования к памяти, при этом сохраняя вычислительную нагрузку на токен, близкую к 10B плотной модели.
Архитектура и ключевые характеристики
Основные параметры MiniMax-M2-REAP-162B-A10B:
- Базовая модель: MiniMax-M2
- Метод сжатия: REAP (Router weighted Expert Activation Pruning)
- Всего параметров: 162B
- Активных параметров на токен: 10B
- Слои: 62 трансформерных блока
- Голов внимания в слое: 48
- Экспертов: 180, получено путем pruning из конфигурации на 256 экспертов
- Активируемых экспертов на токен: 8
- Контекстная длина: 196,608 токенов
- Лицензия: модифицированная MIT, производная от MiniMaxAI MiniMax M2
SMoE-дизайн означает, что модель хранит 162B параметров, но каждый токен маршрутизируется к небольшому набору экспертов, поэтому эффективные вычисления на токен сопоставимы с 10B плотной моделью, при этом общий масштаб модели остается высоким.
Как REAP сжимает MiniMax-M2
Чекпоинт создан путем применения REAP ко всем MoE-блокам MiniMax M2 с примерно 30% уровнем удаления экспертов. REAP вычисляет показатель значимости эксперта, объединяющий:
- Значения роутерных ворот: как часто и с какой силой роутер выбирает эксперт
- Нормы активации эксперта: величину вывода эксперта при его активации
Эксперты, которые минимально влияют на выход слоя по этому комбинированному критерию, удаляются. Оставшиеся эксперты сохраняют свои исходные веса, а роутер хранит отдельные ворота для каждого из них. В этом случае сжатие выполняется в один шаг без последующего дообучения.
В теоретическом результате исследования REAP указывается, что слияние экспертов с суммированием ворот вызывает коллапс функционального подпространства: при слиянии роутер теряет независимый, зависящий от входа контроль над экспертами, и единый объединенный эксперт должен аппроксимировать входозависимую смесь, что приводит к необратимой ошибке, если эксперты не идентичны. Pruning же удаляет часть экспертов, но сохраняет независимый контроль у выживших, поэтому ошибка масштабируется с весом ворот удаленных экспертов.
По набору SMoE-моделей в диапазоне от ~20B до 1T параметров REAP стабильно превосходит слияние экспертов и другие критерии при сравнении на генеративных бенчмарках по коду, математике и вызову инструментов, особенно при сильной компрессии.
Точность при 30% удалении экспертов
Cerebras сравнивает три контрольные точки на стандартных бенчмарках для кода, рассуждений и агентных задач:
- MiniMax-M2 (230B, базовая модель)
- MiniMax-M2-REAP-172B-A10B, 25% pruning
- MiniMax-M2-REAP-162B-A10B, 30% pruning
На бенчмарках по коду, таких как HumanEval, HumanEval Plus, MBPP и MBPP Plus, модель 162B REAP остается очень близкой к базовой. HumanEval находится примерно в районе 90%, MBPP в районе 80%, а 172B и 162B версии в основном повторяют поведение оригинала с отклонениями в несколько пунктов.
На тестах рассуждений типа AIME 25 и MATH 500 наблюдаются незначительные сдвиги между моделями, но при 30% pruning не происходит коллапса, и чекпоинт 162B остается конкурентоспособным с базовой моделью.
В задачах вызова инструментов и агентной оценке, представленных τ2 bench в телекоме, 162B REAP также сопоставим с базовой моделью с небольшой дисперсией. В карточке модели указано, что этот чекпоинт сохраняет почти идентичную производительность при примерно 30% меньшем количестве параметров.
Эти результаты соответствуют более широкому исследованию REAP, которое отчитывается о почти без потерь сжатии для генерации кода и вызова инструментов на нескольких крупных SMoE-архитектурах при применении критерия REAP.
Развертывание, использование памяти и пропускная способность
Cerebras предоставляет пример развертывания через vLLM и позиционирует MiniMax-M2-REAP-162B-A10B как drop-in модель для существующих интеграций MiniMax M2. В карточке модели рекомендуется снижать --max-num-seqs, например до 64, если запуск достигает лимитов памяти, чтобы держать размер батча под контролем на конкретном GPU.
vllm serve cerebras/MiniMax-M2-REAP-162B-A10B \
--tensor-parallel-size 8 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2_append_think \
--trust-remote-code \
--enable_expert_parallel \
--enable-auto-tool-choiceКлючевые выводы
- Эффективные вычисления благодаря SMoE: модель хранит 162B параметров, но маршрутизирует токены к небольшому набору экспертов, поэтому вычисления на токен близки к 10B плотной модели.
- REAP сохраняет поведение MiniMax-M2: метод Router weighted Expert Activation Pruning удаляет примерно 30% экспертов по значениям ворот роутера и нормам активации, оставляя структуру роутинга и веса выживших экспертов.
- Практически без потерь при 30% сжатии: на задачах по коду, рассуждениям и использованию инструментов 162B REAP повторяет поведение 230B MiniMax-M2 с отклонениями в несколько пунктов.
- Pruning лучше слияния для генеративных SMoE: REAP избегает функционального коллапса, наблюдаемого при слиянии экспертов, и показывает лучшую работу на больших SMoE для генеративных задач.
Для загрузки модели и дополнительных деталей смотрите карточку модели на Hugging Face и ресурсы проекта.
Switch Language
Read this article in English