Ant Group представляет Ling 2.0 — масштабируемая sparse MoE система рассуждений до 1T при 1/32 активации

Sparse MoE в основе

Ling 2.0 от команды Inclusion AI в Ant Group — это семейство языковых моделей с приоритетом на рассуждения, построенное на разреженной Mixture-of-Experts (MoE). Модель сохраняет малую вычислительную нагрузку на токен при масштабировании от 16B до 1T параметров, делая ставку на то, что каждая активация напрямую усиливает поведение рассуждения.

Единый рецепт активации для всех размеров

В каждой модели Ling 2.0 используется одинаковый MoE-слой: 256 маршрутизируемых экспертов и один общий эксперт, который всегда активен. Маршрутизатор выбирает 8 маршрутизируемых экспертов на токен и всегда включает общий эксперт, так что примерно 9 из 257 экспертов используются для каждого токена — около 3.5% активации, что соответствует соотношению 1/32. Это позволяет тренировать и обслуживать лишь небольшую часть сети на токен, что, по отчетам, дает около 7-кратного преимущества по эффективности по сравнению с эквивалентными плотными моделями.

Архитектура по Ling Scaling Laws

Команда не подбирала архитектуру эмпирически, а опиралась на Ling Scaling Laws и так называемый "Ling Wind Tunnel": набор маленьких MoE-экспериментов под одинаковыми данными и правилами маршрутизации, подогнанных под степенные законы для прогнозирования потерь, активации и баланса экспертов в больших масштабах. Это позволило заранее зафиксировать 1/32 активацию, 256 маршрутизируемых экспертов и 1 общий эксперт до запуска 1T-скейла. Маршрутизация реализована без вспомогательных потерь, с сигмоидным скорингом, а стек использует QK Norm, MTP loss и частичную RoPE для стабильности глубины.

Стратегия предобучения и фокус на длинном контексте

Серия обучалась на более чем 20T токенов. Пайплайн начинается с контекста 4K и постепенного увеличения доли материалов, требующих рассуждений (математика, код), до почти половины корпуса. На среднем этапе контекст расширяется до ~32K на выбранном срезе из 150B токенов, затем добавляется 600B токенов высокого качества с chain-of-thought, а в конце контекст растягивается до 128K с помощью YaRN при сохранении качества для короткого контекста. Такой поэтапный подход вводит длинный контекст и рассуждения на ранних стадиях обучения, а не только на этапе SFT.

Многоступенчатая постобработка и выравнивание

Выравнивание разделено на пропуск возможностей и пропуск предпочтений. Decoupled Fine Tuning обучает модель переключаться между быстрыми ответами и глубоким рассуждением с разными системными подсказками. Эволюционный этап Chain-of-Thought расширяет и диверсифицирует цепочки рассуждений, а оптимизация политики на уровне предложений с Group Arena Reward (аналог LPO) выравнивает ответы с человеческими суждениями тонко и адресно. Такая поэтапная схема помогает базовой модели без внутреннего 'мышления' достигать сильных результатов в математике, коде и инструкциях без раздувания всех ответов.

Инфраструктура и оптимизации

Ling 2.0 обучается нативно в FP8 с защитами, сохраняя кривую потерь близкой к BF16 и получая примерно 15% улучшения по использованию железа. Более значимые ускорения, порядка 40%, достигаются за счет гетерогенного pipeline-параллелизма, чередования проходов вперед/назад и партиционирования с учетом MTP-блоков. Warmup Stable Merge заменяет классическое снижение LR слиянием чекпоинтов, что стабилизирует обучение. В совокупности эти системные решения делают запуск моделей на триллион параметров практическим на существующих кластерах.

Результаты и уровни мощности

Серия включает три размера:

Ling mini 2.0: 16B параметров, около 1.4B активных на токен, сопоставима по качеству с плотными моделями 7B–8B и генерирует более 300 токенов/с в простых QA на H2O.
Ling flash 2.0: ~100B параметров, около 6.1B активных на токен, сохраняет рецепт 1/32 для большей мощности без увеличения вычислений на токен.
Ling 1T: 1T параметров с примерно 50B активными на токен, контекст 128K и полный стек постобучения Evo CoT + LPO для эффективных рассуждений.

Оценки показывают, что модели с малой долей активации MoE способны давать конкурентное качество при низком per-token compute. Комбинация разреженной активации, FP8 обучения и общей схемы тренировки обеспечивает предсказуемое масштабирование и кратные выигрыши по эффективности в сравнении с плотными аналогами.

Основные выводы

Консистентная 1/32 активация MoE (256 маршрутизируемых экспертов + 1 общий) применяется от 16B до 1T.
Ling Wind Tunnel и Ling Scaling Laws позволяют выбирать форму модели заранее, чтобы рецепт работал на всех масштабах.
Предобучение и средние этапы вводят длинный контекст и данные для рассуждений на ранних стадиях.
Поэтапное выравнивание разделяет улучшение возможностей и выравнивание предпочтений для точечной оптимизации поведения.
Системные улучшения, включая FP8, оптимизации pipeline и слияние чекпоинтов, делают практичным запуск триллионных разреженных моделей на существующем железе.

Дополнительные технические детали и результаты доступны в статье Ling 2.0: https://arxiv.org/abs/2510.22115.