Сравнение MoE Архитектур: Qwen3 30B-A3B от Alibaba против GPT-OSS 20B от OpenAI

Обзор моделей MoE трансформеров

В статье сравниваются две передовые модели Mixture-of-Experts (MoE) трансформеров, выпущенные в 2025 году: Qwen3 30B-A3B от Alibaba (апрель) и GPT-OSS 20B от OpenAI (август). Обе модели используют разные подходы к архитектуре MoE для баланса между эффективностью вычислений и производительностью в различных сценариях.

Сравнение технических характеристик

| Характеристика | Qwen3 30B-A3B | GPT-OSS 20B | |-----------------------|----------------------|----------------------| | Всего параметров | 30,5 млрд | 21 млрд | | Активные параметры | 3,3 млрд | 3,6 млрд | | Количество слоев | 48 | 24 | | Эксперты MoE | 128 (8 активных) | 32 (4 активных) | | Архитектура внимания | Grouped Query Attention | Grouped Multi-Query Attention | | Головки Query/Key-Value | 32Q / 4KV | 64Q / 8KV | | Контекстное окно | 32 768 (расширено до 262 144) | 128 000 | | Размер словаря | 151 936 | ~200k (o200k_harmony)| | Квантование | Стандартная точность | Native MXFP4 |

Архитектура Qwen3 30B-A3B

Qwen3 30B-A3B построена на глубоком трансформере с 48 слоями и 128 экспертами на слой, из которых активны 8 на каждый токен. Такая конфигурация обеспечивает тонкую специализацию и эффективность.

Механизм внимания

Используется Grouped Query Attention (GQA) с 32 головами Query и 4 головами Key-Value, что оптимизирует использование памяти и поддерживает качество внимания, особенно при работе с длинным контекстом.

Контекст и поддержка языков

Модель поддерживает нативную длину контекста 32 768 токенов с возможностью расширения до 262 144 токенов. Поддерживается 119 языков и диалектов, словарь из 151 936 токенов с использованием BPE токенизации.

Уникальные особенности

Qwen3 включает гибридную систему рассуждений с режимами «мышления» и «без мышления», позволяя регулировать вычислительные затраты в зависимости от сложности задачи.

Архитектура GPT-OSS 20B

GPT-OSS 20B имеет 24 слоя трансформера с 32 экспертами на слой, активных 4 на токен. Модель ориентирована на более широкую экспертную емкость, а не на детальную специализацию.

Механизм внимания

Применяется Grouped Multi-Query Attention с 64 Query и 8 Key-Value головами, сгруппированными по 8, что обеспечивает эффективный вывод и качественное внимание.

Контекст и оптимизация

Нативная длина контекста 128 000 токенов, квантование Native MXFP4 (4,25-битовая точность) для весов MoE, работающая на 16 ГБ памяти. Токенизатор o200k_harmony — надмножество GPT-4o токенизатора.

Характеристики производительности

Используются чередующиеся плотные и локально полосатые разреженные паттерны внимания, аналогичные GPT-3, и ротарные позиционные эмбеддинги (RoPE).

Философия архитектуры

Qwen3 делает ставку на глубину и разнообразие экспертов: 48 слоев и 128 экспертов на слой для многоступенчатого рассуждения и иерархической абстракции. Подходит для сложных задач с глубоким анализом.

GPT-OSS акцентирует ширину и вычислительную плотность с меньшим числом слоев, но более крупными экспертами, оптимизируя однопроходный вывод.

Стратегии маршрутизации MoE

Qwen3 направляет токены через 8 из 128 экспертов, поощряя разнообразные, контекстно-чувствительные пути обработки. GPT-OSS — через 4 из 32 экспертов, максимизируя вычислительную мощность каждого эксперта.

Память и развертывание

У Qwen3 требования к памяти зависят от точности и длины контекста, оптимизирована для облачных и edge-развертываний с гибким расширением контекста. Поддерживает различные схемы квантования после обучения.

GPT-OSS требует 16 ГБ памяти с квантованием Native MXFP4 и около 48 ГБ в bfloat16. Разработан для совместимости с пользовательским оборудованием и эффективного вывода без потери качества.

Производительность и варианты использования

Qwen3 превосходит в математическом рассуждении, программировании, сложной логике и мультиязычии (119 языков). Режим мышления усиливает возможности решения сложных задач.

GPT-OSS демонстрирует производительность, сравнимую с OpenAI o3-mini, оптимизирован для использования инструментов, веб-браузинга, вызова функций и адаптивного цепочного мышления.

Источники

Официальная документация Qwen3 и OpenAI, технические блоги и аналитика сообщества, вдохновленная постом Себастьяна Рашка на Reddit.

Сравнение MoE Архитектур: Qwen3 30B-A3B от Alibaba против GPT-OSS 20B от OpenAI

Обзор моделей MoE трансформеров

Сравнение технических характеристик

Архитектура Qwen3 30B-A3B

Механизм внимания

Контекст и поддержка языков

Уникальные особенности

Архитектура GPT-OSS 20B

Механизм внимания

Контекст и оптимизация

Характеристики производительности

Философия архитектуры

Стратегии маршрутизации MoE

Память и развертывание

Производительность и варианты использования

Рекомендации по использованию

Источники

Switch Language