Baidu представляет ERNIE-4.5-21B-A3B-Thinking: компактная MoE-модель с 128K контекстом для глубокого вывода
ERNIE-4.5-21B-A3B-Thinking от Baidu AI Research — новая модель, ориентированная на задачи рассуждений, которая сочетает исследовательский уровень возможностей с практичной эффективностью при деплое. Модель входит в семейство ERNIE-4.5 и использует архитектуру Mixture-of-Experts для концентрации вычислений там, где это нужно.
Архитектура и MoE
Модель реализована как разреженная Mixture-of-Experts с общим размером 21 млрд параметров, но с примерно 3 млрд активных параметров на токен. Маршрутизатор (router) выбирает подмножество экспертов для каждого токена, что снижает расход вычислений и одновременно позволяет экспертам специализироваться. Для повышения разнообразия активации экспертов и стабильности обучения команда применяет потери router orthogonalization и token-balanced loss.
Такой подход ставит ERNIE-4.5-21B-A3B-Thinking между малыми плотными моделями и очень крупными плотными системами, опираясь на гипотезу, что около 3 млрд активных параметров на токен может быть практичным компромиссом между качеством рассуждений и стоимостью разворачивания.
Рассуждения в длинном контексте
Ключевая особенность — нативная поддержка длины контекста 128K. Это позволяет обрабатывать длинные документы, мультифайловые кодовые базы и сохранять контекст в многозвенных рассуждениях.
Для этого в обучении последовательно масштабируют Rotary Position Embeddings (RoPE), увеличивая базовую частоту от 10K до 500K. Дополнительные оптимизации, такие как FlashMask attention и память-эффективное планирование, делают операции с длинным контекстом практичными.
Стратегия обучения и фокус на рассуждениях
Модель следует многоступенчатому рецепту ERNIE-4.5 с фокусом на тексте:
- Stage I: предварительное текстовое обучение, масштабирование контекста от 8K до 128K.
- Stage II и III: визуальные и мультимодальные этапы не используются в этой текстовой версии.
После предобучения проводится Supervised Fine-Tuning по математике, логике, программированию и науке, затем Progressive Reinforcement Learning. Стадии RL стартуют с логики, затем охватывают математику и программирование и в конце расширяются на более общие задачи рассуждения. Unified Preference Optimization (UPO) сочетает обучение предпочтениям с PPO для стабилизации выравнивания и снижения злоупотреблений с вознаграждением.
Интеграция инструментов и вызов функций
Модель поддерживает структурированный вызов инструментов и функций и рассчитана на интеграцию с vLLM, Transformers 4.54+ и FastDeploy. Встроенный механизм вызова функций позволяет модели рассуждать по длинному контексту и динамически вызывать внешние API или вычисления, что важно для синтеза программ, символических рассуждений и мультиагентных сценариев.
Результаты и сравнения
По бенчмаркам рассуждений модель показывает заметные улучшения в логике, математике, научном QA и задачах программирования. ERNIE-4.5-21B-A3B-Thinking улучшает точность на наборах с многошаговыми рассуждениями и сопоставим с более крупными плотными моделями на задачах STEM. Это свидетельствует, что MoE-структура усиливает специализацию экспертных модулей без необходимости триллионных плотных параметров.
В сравнении с другими моделями, ориентированными на рассуждения, такими как OpenAI o3, Anthropic Claude 4, DeepSeek-R1 и Qwen-3, Baidu предлагает иной баланс: разреженная активация для снижения вычислений, нативное обучение на 128K контексте и лицензия Apache-2.0 для более простой коммерческой интеграции.
Доступность
Модель выпущена под лицензией Apache-2.0 и доступна на Hugging Face для исследовательского и коммерческого использования: https://huggingface.co/baidu/ERNIE-4.5-21B-A3B-Thinking