Alibaba представила Qwen3-Max — MoE на 1T+ параметров с production thinking mode и заметными бенчмарками
Что такое Qwen3-Max
Alibaba выпустила Qwen3-Max — модель класса триллиона параметров с архитектурой Mixture-of-Experts (MoE), которую компания позиционирует как наиболее мощную свою фундаментальную модель. Анонс переводит Qwen из превью в боевой режим с публичным доступом через Qwen Chat и API Model Studio.
Масштаб и архитектура
Qwen3-Max преодолевает отметку в 1 триллион параметров, используя разреженную MoE-схему, где на каждый токен активируется подмножество экспертов. Предтренировочный корпус оценивается примерно в 36 триллионов токенов и ориентирован на мультиязычность, код и STEM/логические данные.
Обучение и режим выполнения
Модель следует четырёхэтапному пост-трейнингу Qwen3: длинный холодный запуск chain-of-thought, RL, фьюжн thinking и non-thinking режимов и финальный general-domain RL. Статистики роутинга и точное число параметров публикуются командой до выхода официального технического отчёта.
Доступ и детали API
Qwen Chat показывает универсальный UX, а Model Studio открывает настройки инференса и переключатель thinking-mode. Важный контракт: thinking-модели Qwen3 работают только при включённом стриминге инкрементального вывода (установите incremental_output=true). По умолчанию коммерческие настройки имеют этот флаг в false, поэтому вызовам нужно явно его выставлять при запуске инструментированных сценариев.
Бенчмарки: кодинг, агентное управление и математика
Кодинг: Qwen3-Max-Instruct демонстрирует 69.6 по SWE-Bench Verified, что ставит её выше ряда non-thinking баз и близко к сильным системам в отдельных сводках. Значения зависят от harness и быстро эволюционируют.
Агентное использование инструментов: на Tau2-Bench, тестирующем принятие решений и маршрутизацию инструментов, Qwen3-Max показывает 74.8 и опережает сопоставимые системы в том же отчёте. Tau2 важен для оценки планирования с несколькими инструментами, а не только текстовой точности.
Математика и сложное рассуждение: ветка Qwen3-Max-Thinking с тяжёлой конфигурацией рантайма и доступом к инструментам описывается как близкая к идеальной на тестах вроде AIME25 в ряде вторичных источников. До выхода официального технического отчёта заявления о 100% следует считать командно-отчётными или требующими репликации.
Почему две ветки: Instruct и Thinking
Instruct рассчитан на стандартный чат, кодинг и рассуждения с минимальной задержкой. Thinking включает более длинные следы рассуждений и явные вызовы инструментов (retrieval, выполнение кода, браузинг, валидаторы) для более надёжных агентных сценариев. API формализует этот контракт: thinking-запросы требуют включённого инкрементального вывода.
Как оценивать приросты
Для кодинга результаты в районе 60–70 SWE-Bench отражают нетривиальную способность к репозиториальному рассуждению и синтезу патчей в условиях реальных хранингов и тестов.
Улучшения по Tau2 обычно означают меньше хрупких ручных политик в продакшн-агентах при наличии надёжных API инструментов и песочниц исполнения.
Успехи в математике и верификации при thinking-модах подчёркивают значение длительных рассуждений и инструментов (калькуляторы, проверяющие механизмы). Перенос таких побед в открытые задачи зависит от дизайна оценщиков и защитных рамок.
Практический вывод
Qwen3-Max — это разворачиваемая, ориентированная на продакшн MoE-модель с 1T+ параметров и формализованным thinking-mode, доступная через Qwen Chat и Model Studio. Ключевые проверяемые факты сегодня — масштаб (≈36T токенов, >1T параметров) и API-контракт для инструментированных запусков (включите стриминг с incremental_output=true). Командам, строящим кодинговые и агентные системы, стоит начать практические испытания и внутренние проверки по SWE- и Tau2-метрикам.