MiniMax AI Представляет MiniMax-M1: Гибридная Модель на 456 Млрд Параметров для Длинных Контекстов и Обучения с Подкреплением

Проблема Длинных Контекстов в Моделях ИИ

Крупные модели для рассуждений созданы не только для понимания языка, но и для выполнения многошаговых процессов, требующих длительного внимания и глубокого понимания контекста. С ростом требований к ИИ, особенно в реальных и программных средах, исследователи искали архитектуры, способные обрабатывать большие объемы входных данных и поддерживать связные цепочки рассуждений без чрезмерных вычислительных затрат.

Ограничения Традиционных Трансформеров

Традиционные трансформеры используют механизм внимания softmax, который масштабируется квадратично по длине входа, что сильно ограничивает их способность эффективно работать с длинными последовательностями. Это особенно критично для приложений с реальным временем отклика и ограничением на стоимость вычислений.

Существующие Решения и Их Недостатки

Для решения этой проблемы были предложены различные методы: разреженное и линейное внимание, модели состояний и рекуррентные сети. Однако эти подходы часто сложны или плохо масштабируются, что снижает их применение в ведущих моделях. Кроме того, некоторые крупные системы, например Tencent Hunyuan-T1, остаются закрытыми, что ограничивает исследования и проверку.

Введение MiniMax-M1: Масштабируемая Открытая Модель

MiniMax AI разработала MiniMax-M1 — модель с 456 миллиардами параметров, из которых активируется 45.9 млрд на каждый токен. Она поддерживает длину контекста до 1 миллиона токенов — в восемь раз больше, чем DeepSeek R1, и при этом использует всего 25% вычислений DeepSeek R1 на 100 000 токенов. Модель обучалась на большом количестве задач с подкреплением, включая математику, программирование и инженерное ПО, что делает её практичным решением для длинных контекстов.

Гибридная Архитектура Внимания

В MiniMax-M1 реализована гибридная схема внимания: каждый седьмой блок трансформера использует традиционное softmax-внимание, а остальные шесть — lightning attention. Lightning attention является адаптацией линейного внимания с учётом ввода-вывода, что значительно снижает вычислительную сложность при сохранении качества для очень длинных контекстов.

Алгоритм CISPO для Эффективного Обучения с Подкреплением

Алгоритм CISPO, представленный исследователями, стабилизирует обучение, обрезая веса важности выборки вместо обновлений токенов. Это позволяет стабильное обучение даже при офф-политик обновлениях. CISPO обеспечил двукратное ускорение по сравнению с DAPO. Полный цикл обучения MiniMax-M1 занял три недели на 512 GPUs H800, стоимостью около 534 700 долларов.

Данные для Обучения и Результаты Тестов

Модель обучалась на 41 логической задаче от SynLogic и реальных задачах программной инженерии из SWE bench с использованием наград на основе исполнения, что улучшило результаты в практических задачах кодирования. В тестах MiniMax-M1 превзошла DeepSeek-R1 и Qwen3-235B в программной инженерии, обработке длинных контекстов и использовании агентских инструментов. Несмотря на небольшое отставание от DeepSeek-R1-0528 в математике и кодировании, модель обогнала OpenAI o3 и Claude 4 Opus по пониманию длинных контекстов и Gemini 2.5 Pro в TAU-Bench.

Прозрачная и Масштабируемая Модель

MiniMax-M1 устанавливает новый стандарт, сочетая прозрачность и масштабируемость, решая задачи эффективности вывода и стабильности обучения. Эта открытая модель предлагает практичные решения для внедрения масштабных моделей рассуждений в реальные приложения и стимулирует дальнейшее развитие ИИ.

Для подробностей ознакомьтесь с [Paper, Model и GitHub Page]. Все заслуги принадлежат команде исследователей MiniMax AI. Следите за обновлениями в Twitter, присоединяйтесь к их сабреддиту с 100k+ участников и подпишитесь на их рассылку.