Сравнение MoE Архитектур: Qwen3 30B-A3B от Alibaba против GPT-OSS 20B от OpenAI
Обзор моделей MoE трансформеров
В статье сравниваются две передовые модели Mixture-of-Experts (MoE) трансформеров, выпущенные в 2025 году: Qwen3 30B-A3B от Alibaba (апрель) и GPT-OSS 20B от OpenAI (август). Обе модели используют разные подходы к архитектуре MoE для баланса между эффективностью вычислений и производительностью в различных сценариях.
Сравнение технических характеристик
Характеристика | Qwen3 30B-A3B | GPT-OSS 20B |
---|---|---|
Всего параметров | 30,5 млрд | 21 млрд |
Активные параметры | 3,3 млрд | 3,6 млрд |
Количество слоев | 48 | 24 |
Эксперты MoE | 128 (8 активных) | 32 (4 активных) |
Архитектура внимания | Grouped Query Attention | Grouped Multi-Query Attention |
Головки Query/Key-Value | 32Q / 4KV | 64Q / 8KV |
Контекстное окно | 32 768 (расширено до 262 144) | 128 000 |
Размер словаря | 151 936 | ~200k (o200k_harmony) |
Квантование | Стандартная точность | Native MXFP4 |
Архитектура Qwen3 30B-A3B
Qwen3 30B-A3B построена на глубоком трансформере с 48 слоями и 128 экспертами на слой, из которых активны 8 на каждый токен. Такая конфигурация обеспечивает тонкую специализацию и эффективность.
Механизм внимания
Используется Grouped Query Attention (GQA) с 32 головами Query и 4 головами Key-Value, что оптимизирует использование памяти и поддерживает качество внимания, особенно при работе с длинным контекстом.
Контекст и поддержка языков
Модель поддерживает нативную длину контекста 32 768 токенов с возможностью расширения до 262 144 токенов. Поддерживается 119 языков и диалектов, словарь из 151 936 токенов с использованием BPE токенизации.
Уникальные особенности
Qwen3 включает гибридную систему рассуждений с режимами «мышления» и «без мышления», позволяя регулировать вычислительные затраты в зависимости от сложности задачи.
Архитектура GPT-OSS 20B
GPT-OSS 20B имеет 24 слоя трансформера с 32 экспертами на слой, активных 4 на токен. Модель ориентирована на более широкую экспертную емкость, а не на детальную специализацию.
Механизм внимания
Применяется Grouped Multi-Query Attention с 64 Query и 8 Key-Value головами, сгруппированными по 8, что обеспечивает эффективный вывод и качественное внимание.
Контекст и оптимизация
Нативная длина контекста 128 000 токенов, квантование Native MXFP4 (4,25-битовая точность) для весов MoE, работающая на 16 ГБ памяти. Токенизатор o200k_harmony — надмножество GPT-4o токенизатора.
Характеристики производительности
Используются чередующиеся плотные и локально полосатые разреженные паттерны внимания, аналогичные GPT-3, и ротарные позиционные эмбеддинги (RoPE).
Философия архитектуры
Qwen3 делает ставку на глубину и разнообразие экспертов: 48 слоев и 128 экспертов на слой для многоступенчатого рассуждения и иерархической абстракции. Подходит для сложных задач с глубоким анализом.
GPT-OSS акцентирует ширину и вычислительную плотность с меньшим числом слоев, но более крупными экспертами, оптимизируя однопроходный вывод.
Стратегии маршрутизации MoE
Qwen3 направляет токены через 8 из 128 экспертов, поощряя разнообразные, контекстно-чувствительные пути обработки. GPT-OSS — через 4 из 32 экспертов, максимизируя вычислительную мощность каждого эксперта.
Память и развертывание
У Qwen3 требования к памяти зависят от точности и длины контекста, оптимизирована для облачных и edge-развертываний с гибким расширением контекста. Поддерживает различные схемы квантования после обучения.
GPT-OSS требует 16 ГБ памяти с квантованием Native MXFP4 и около 48 ГБ в bfloat16. Разработан для совместимости с пользовательским оборудованием и эффективного вывода без потери качества.
Производительность и варианты использования
Qwen3 превосходит в математическом рассуждении, программировании, сложной логике и мультиязычии (119 языков). Режим мышления усиливает возможности решения сложных задач.
GPT-OSS демонстрирует производительность, сравнимую с OpenAI o3-mini, оптимизирован для использования инструментов, веб-браузинга, вызова функций и адаптивного цепочного мышления.
Рекомендации по использованию
- Выбирайте Qwen3 30B-A3B для сложных многоступенчатых задач, мультиязычных приложений, гибкого расширения контекста и прозрачности рассуждений.
- Выбирайте GPT-OSS 20B для ограниченных ресурсов, вызова инструментов, быстрого вывода и edge-сценариев с ограниченной памятью.
Обе модели демонстрируют эволюцию архитектур MoE, выходящую за рамки простого увеличения параметров и учитывающую целевые задачи и условия развертывания.
Источники
Официальная документация Qwen3 и OpenAI, технические блоги и аналитика сообщества, вдохновленная постом Себастьяна Рашка на Reddit.