Tencent выпускает Hunyuan-A13B: эффективная MoE-модель с 13 млрд активных параметров, двойным режимом мышления и поддержкой 256K контекста

Представление Hunyuan-A13B

Команда Tencent Hunyuan представила Hunyuan-A13B — новую открыто исходную крупную языковую модель, построенную на основе разреженной архитектуры Mixture-of-Experts (MoE). Несмотря на общий объем в 80 миллиардов параметров, во время инференса активны лишь 13 миллиардов, что обеспечивает баланс между производительностью и эффективностью.

Архитектура и особенности

Hunyuan-A13B построена на тонко настроенной MoE-архитектуре с одним общим экспертом и 64 уникальными экспертами, из которых в каждом проходе активируются 8. Модель состоит из 32 слоев, использует активации SwiGLU и словарь размером в 128 тысяч токенов. Группированное внимание к запросам (GQA) повышает эффективность использования памяти при работе с длинными контекстами — поддерживается длина контекста до 256 тысяч токенов.

Процесс обучения включает 20 триллионов токенов для предобучения, затем быстрый отжиг и адаптацию к длинным контекстам. Окно контекста последовательно расширяется с 32K до 256K токенов с помощью позиционного кодирования, учитывающего NTK, что обеспечивает стабильную производительность на больших длинах последовательностей.

Двойной режим рассуждения

Особенностью модели является двухрежимное рассуждение Chain-of-Thought. Пользователи могут выбирать между быстрым режимом (/no think) для рутинных запросов и медленным режимом (/think) для сложных многошаговых рассуждений. Такая гибкость позволяет адаптировать вычислительные ресурсы под сложность задачи.

Постобучение и донастройка

Модель проходит многоэтапное контролируемое дообучение и обучение с подкреплением с использованием специализированных моделей награды. RL-этапы включают награды, основанные на результатах, и обратную связь, связанную с использованием инструментов, включая песочницу для исполнения кода и правил для агентов.

В фазе обучения агентов синтезированы разнообразные сценарии работы с инструментами, задействующие роли планировщика, проверяющего и инструмента, с более чем 20 тысячами комбинаций форматов. Это усиливает способность Hunyuan-A13B выполнять реальные рабочие процессы — обработку таблиц, поиск информации и структурированное рассуждение.

Результаты тестирования

Hunyuan-A13B показывает передовые результаты на различных бенчмарках:

Соответствует или превосходит более крупные плотные и MoE-модели на MATH, CMATH и GPQA.
Обходит Qwen3-A22B и DeepSeek R1 в логическом рассуждении (BBH: 89.1; ZebraLogic: 84.7).
Показывает высокие результаты в программировании: 83.9 на MBPP и 69.3 на MultiPL-E.
Лидирует в агентских тестах BFCL-v3 (78.3) и ComplexFuncBench (61.2).
Отличается пониманием длинных контекстов: 87.7 на PenguinScrolls и устойчиво 73.9 на RULER при 64K–128K контексте, превосходя более крупные модели.

Оптимизация инференса и развертывание

Модель полностью интегрирована с популярными фреймворками для инференса — vLLM, SGLang и TensorRT-LLM. Поддерживаются форматы точности W16A16, W8A8 и KV Cache FP8, а также функции Auto Prefix Caching и Chunk Prefill. Модель достигает пропускной способности до 1981,99 токенов в секунду на 32-батчевом входе, что делает её практичной для приложений в реальном времени.

Открытость и значение для индустрии

Hunyuan-A13B доступна на Hugging Face и GitHub под либеральной лицензией, ориентирована на исследовательское и промышленное применение, особенно в задачах с низкой задержкой и длинным контекстом. Комбинация масштабируемой MoE-архитектуры и продвинутого агентного рассуждения делает Hunyuan-A13B привлекательной альтернативой более тяжеловесным LLM, расширяя возможности для экспериментов и внедрения без потери качества.

Подробнее с проектом можно ознакомиться в статье и на репозиториях. Следите за новостями в Twitter и присоединяйтесь к ML-сообществу.