Alibaba представила Qwen3-Max — MoE на 1T+ параметров с production thinking mode и заметными бенчмарками

Что такое Qwen3-Max

Alibaba выпустила Qwen3-Max — модель класса триллиона параметров с архитектурой Mixture-of-Experts (MoE), которую компания позиционирует как наиболее мощную свою фундаментальную модель. Анонс переводит Qwen из превью в боевой режим с публичным доступом через Qwen Chat и API Model Studio.

Масштаб и архитектура

Qwen3-Max преодолевает отметку в 1 триллион параметров, используя разреженную MoE-схему, где на каждый токен активируется подмножество экспертов. Предтренировочный корпус оценивается примерно в 36 триллионов токенов и ориентирован на мультиязычность, код и STEM/логические данные.

Обучение и режим выполнения

Модель следует четырёхэтапному пост-трейнингу Qwen3: длинный холодный запуск chain-of-thought, RL, фьюжн thinking и non-thinking режимов и финальный general-domain RL. Статистики роутинга и точное число параметров публикуются командой до выхода официального технического отчёта.

Доступ и детали API

Qwen Chat показывает универсальный UX, а Model Studio открывает настройки инференса и переключатель thinking-mode. Важный контракт: thinking-модели Qwen3 работают только при включённом стриминге инкрементального вывода (установите incremental_output=true). По умолчанию коммерческие настройки имеют этот флаг в false, поэтому вызовам нужно явно его выставлять при запуске инструментированных сценариев.

Бенчмарки: кодинг, агентное управление и математика

Почему две ветки: Instruct и Thinking

Instruct рассчитан на стандартный чат, кодинг и рассуждения с минимальной задержкой. Thinking включает более длинные следы рассуждений и явные вызовы инструментов (retrieval, выполнение кода, браузинг, валидаторы) для более надёжных агентных сценариев. API формализует этот контракт: thinking-запросы требуют включённого инкрементального вывода.

Как оценивать приросты

Практический вывод

Qwen3-Max — это разворачиваемая, ориентированная на продакшн MoE-модель с 1T+ параметров и формализованным thinking-mode, доступная через Qwen Chat и Model Studio. Ключевые проверяемые факты сегодня — масштаб (≈36T токенов, >1T параметров) и API-контракт для инструментированных запусков (включите стриминг с incremental_output=true). Командам, строящим кодинговые и агентные системы, стоит начать практические испытания и внутренние проверки по SWE- и Tau2-метрикам.