Сравнение MoE Архитектур: Qwen3 30B-A3B от Alibaba против GPT-OSS 20B от OpenAI

Обзор моделей MoE трансформеров

В статье сравниваются две передовые модели Mixture-of-Experts (MoE) трансформеров, выпущенные в 2025 году: Qwen3 30B-A3B от Alibaba (апрель) и GPT-OSS 20B от OpenAI (август). Обе модели используют разные подходы к архитектуре MoE для баланса между эффективностью вычислений и производительностью в различных сценариях.

Сравнение технических характеристик

ХарактеристикаQwen3 30B-A3BGPT-OSS 20B
Всего параметров30,5 млрд21 млрд
Активные параметры3,3 млрд3,6 млрд
Количество слоев4824
Эксперты MoE128 (8 активных)32 (4 активных)
Архитектура вниманияGrouped Query AttentionGrouped Multi-Query Attention
Головки Query/Key-Value32Q / 4KV64Q / 8KV
Контекстное окно32 768 (расширено до 262 144)128 000
Размер словаря151 936~200k (o200k_harmony)
КвантованиеСтандартная точностьNative MXFP4

Архитектура Qwen3 30B-A3B

Qwen3 30B-A3B построена на глубоком трансформере с 48 слоями и 128 экспертами на слой, из которых активны 8 на каждый токен. Такая конфигурация обеспечивает тонкую специализацию и эффективность.

Механизм внимания

Используется Grouped Query Attention (GQA) с 32 головами Query и 4 головами Key-Value, что оптимизирует использование памяти и поддерживает качество внимания, особенно при работе с длинным контекстом.

Контекст и поддержка языков

Модель поддерживает нативную длину контекста 32 768 токенов с возможностью расширения до 262 144 токенов. Поддерживается 119 языков и диалектов, словарь из 151 936 токенов с использованием BPE токенизации.

Уникальные особенности

Qwen3 включает гибридную систему рассуждений с режимами «мышления» и «без мышления», позволяя регулировать вычислительные затраты в зависимости от сложности задачи.

Архитектура GPT-OSS 20B

GPT-OSS 20B имеет 24 слоя трансформера с 32 экспертами на слой, активных 4 на токен. Модель ориентирована на более широкую экспертную емкость, а не на детальную специализацию.

Механизм внимания

Применяется Grouped Multi-Query Attention с 64 Query и 8 Key-Value головами, сгруппированными по 8, что обеспечивает эффективный вывод и качественное внимание.

Контекст и оптимизация

Нативная длина контекста 128 000 токенов, квантование Native MXFP4 (4,25-битовая точность) для весов MoE, работающая на 16 ГБ памяти. Токенизатор o200k_harmony — надмножество GPT-4o токенизатора.

Характеристики производительности

Используются чередующиеся плотные и локально полосатые разреженные паттерны внимания, аналогичные GPT-3, и ротарные позиционные эмбеддинги (RoPE).

Философия архитектуры

Qwen3 делает ставку на глубину и разнообразие экспертов: 48 слоев и 128 экспертов на слой для многоступенчатого рассуждения и иерархической абстракции. Подходит для сложных задач с глубоким анализом.

GPT-OSS акцентирует ширину и вычислительную плотность с меньшим числом слоев, но более крупными экспертами, оптимизируя однопроходный вывод.

Стратегии маршрутизации MoE

Qwen3 направляет токены через 8 из 128 экспертов, поощряя разнообразные, контекстно-чувствительные пути обработки. GPT-OSS — через 4 из 32 экспертов, максимизируя вычислительную мощность каждого эксперта.

Память и развертывание

У Qwen3 требования к памяти зависят от точности и длины контекста, оптимизирована для облачных и edge-развертываний с гибким расширением контекста. Поддерживает различные схемы квантования после обучения.

GPT-OSS требует 16 ГБ памяти с квантованием Native MXFP4 и около 48 ГБ в bfloat16. Разработан для совместимости с пользовательским оборудованием и эффективного вывода без потери качества.

Производительность и варианты использования

Qwen3 превосходит в математическом рассуждении, программировании, сложной логике и мультиязычии (119 языков). Режим мышления усиливает возможности решения сложных задач.

GPT-OSS демонстрирует производительность, сравнимую с OpenAI o3-mini, оптимизирован для использования инструментов, веб-браузинга, вызова функций и адаптивного цепочного мышления.

Рекомендации по использованию

Обе модели демонстрируют эволюцию архитектур MoE, выходящую за рамки простого увеличения параметров и учитывающую целевые задачи и условия развертывания.

Источники

Официальная документация Qwen3 и OpenAI, технические блоги и аналитика сообщества, вдохновленная постом Себастьяна Рашка на Reddit.