Qwen3-Next-80B-A3B в FP8: гибридный MoE 80B/3B становится жизнеспособным на обычных GPU

сентября 22, 2025 · 3 min

Обзор

Команда Qwen из Alibaba выпустила FP8-контрольные точки для Qwen3-Next-80B-A3B в двух послетренировочных вариантах: Instruct и Thinking. FP8-сборки соответствуют BF16-релизам, но содержат «fine-grained FP8» веса (блок 128) и заметки по деплою для актуальных nightly-сборок sglang и vLLM. Бенчмарки остаются теми же, что и у BF16-моделей; FP8 предоставляется для удобства и повышения производительности, а не как отдельный набор тестов.

Архитектура и стек A3B

Qwen3-Next-80B-A3B представляет собой гибрид: Gated DeltaNet (суррогат внимания в стиле линейных/сверточных операций) сочетается с Gated Attention и чередуется с ультра-редкой Mixture-of-Experts (MoE). Архитектура включает 48 слоев, организованных в 12 блоков: 3×(Gated DeltaNet → MoE) и затем 1×(Gated Attention → MoE). При бюджете в 80B параметров активируется примерно 3B параметров на токен через 512 экспертов (10 routed + 1 shared). Нативный контекст — 262,144 токенов, проверен до ~1,010,000 токенов с использованием RoPE scaling (YaRN).

Ключевые характеристики: скрытый размер 2048; внимание с 16 Q-heads и 2 KV-heads при head dim 256; DeltaNet использует 32 V и 16 QK линейных хедов при head dim 128. Команда отмечает, что базовая 80B-A3B модель превосходит Qwen3-32B по downstream-задачам при ~10% его стоимости тренировки и обеспечивает примерно 10× пропускной способности за пределом 32K контекста, благодаря низкой активации MoE и многошаговой предсказательной стратегии (MTP).

Instruct против Thinking

Вариант Instruct настроен без встроенных следов рассуждения (без тегов) и ориентирован на выполнение инструкций. Вариант Thinking по умолчанию включает следы рассуждений и оптимизирован для сложных задач; для него также применяются методы RL post-training и рекомендован парсер рассуждений при деплое для корректной работы гибридного внимания и высокой разреженности MoE.

Что изменилось в FP8-релизах

Карточки FP8 подчёркивают «fine-grained FP8» с блоком 128. Деплой отличается от BF16: оба фреймворка, sglang и vLLM, требуют актуальных main/nightly сборок, и карточки приводят примерные команды для запуска 256K контекста и опционального MTP. В карточке Thinking рекомендуется включать флаг парсера рассуждений (например, –reasoning-parser deepseek-r1 в sglang или deepseek_r1 в vLLM). Лицензия остаётся Apache-2.0.

Бенчмарки и производительность

FP8 Instruct-карточка воспроизводит BF16-таблицу сравнения, ставя Qwen3-Next-80B-A3B-Instruct в сопоставимое положение с Qwen3-235B-A22B-Instruct-2507 по ряду знаний, задач на рассуждение и кодинг, с преимуществом на долгих контекстах (до 256K). FP8 Thinking-карточка перечисляет достижения на AIME'25, HMMT'25, MMLU-Pro/Redux и LiveCodeBench v6, утверждая превосходство над ранними Thinking-релизами и победы над Gemini-2.5-Flash-Thinking в нескольких задачах.

Тренировка, стабильность и пост-тренировочные сигналы

Серия обучалась примерно на 15T токенов до пост-тренинга. Qwen отмечает улучшения стабильности — zero-centered и weight-decayed layer norm и т.д. — и применяет GSPO в RL post-training для модели Thinking, чтобы справиться с гибридным вниманием и высокой разреженностью MoE. MTP используется для ускорения инференса и улучшения сигнала предобучения.

Почему FP8 важен для длинных контекстов и MoE

На современных ускорителях FP8 снижает требования к пропускной способности памяти и занимаемому объёму по сравнению с BF16, что позволяет использовать большие батчи или длинные последовательности при сопоставимой задержке. Поскольку A3B маршрутизирует лишь ~3B параметров на токен, сочетание FP8 и разреженного MoE усиливает прирост пропускной способности в режимах длинного контекста, особенно в связке со спекулятивной декодировкой через MTP. Однако квантизация взаимодействует с маршрутизацией и вариантами внимания: реальные показатели принятия спекулятивных декодов и точности задач зависят от движка и реализаций ядер. Qwen рекомендует использовать актуальные сборки sglang/vLLM и настраивать спекулятивные параметры при деплое.

Практические рекомендации

FP8-релизы делают стек 80B/3B-active A3B практичным для обслуживания на 256K контексте на мейнстрим-движках, сохраняя гибридный MoE и путь MTP для высокой пропускной способности. Поскольку карточки моделей сохраняют BF16-бенчмарки, командам следует валидировать FP8-точность и задержку в своих средах, обращая внимание на парсеры рассуждений и параметры спекулятивной декодировки.

Ресурсы

Qwen предлагает страничку на GitHub с туториалами, кодом и ноутбуками, а также каналы для обновлений и обсуждений.