mmBERT: 3 триллиона токенов, 1833 языка и ускорение 2–4× для мультиязычного кодирования

сентября 11, 2025 · 3 min

Зачем понадобился новый мультиязычный энкодер

XLM-RoBERTa в течение многих лет задавал тон в мультиязычных энкодерах. При этом исследовательское внимание сместилось к декодерным генеративным моделям, хотя энкодеры остаются эффективнее и часто превосходят декодеры в задачах эмбеддингов, поиска и классификации. Разработка современных мультиязычных энкодеров отставала, и появился запрос на актуальную замену.

Архитектура и конфигурации

mmBERT доступен в двух размерах. Базовая версия имеет 22 слоя трансформера, скрытое пространство 1152 и примерно 307 миллионов параметров (110 миллионов без учета эмбеддингов). Малая версия насчитывает порядка 140 миллионов параметров (42 миллиона без эмбеддингов).

Ключевые решения включают токенизатор Gemma 2 с словарем 256k, ротационные позиционные эмбеддинги RoPE и FlashAttention2 для ускорения внимания. Длина контекста расширена с 1024 до 8192 токенов за счет невыравненных эмбеддингов и скользящего окна внимания. Это позволяет обрабатывать контексты почти на порядок длиннее, чем у XLM-R, при более быстрой инференс работе.

Данные и этапы обучения

Модель обучали на примерно 3 триллионах токенов из 1 833 языков. Источники включают FineWeb2, Dolma, MegaWika v2, ProLong, StarCoder и другие. Доля английского в корпусе варьируется от 10 до 34 процентов в зависимости от фазы.

Этапы обучения:

Предобучение: 2.3 трлн токенов по 60 языкам и коду.
Средняя фаза: 600 млрд токенов по 110 языкам с упором на качественные источники.
Фаза decay: 100 млрд токенов по 1 833 языкам для адаптации к малоресурсным языкам.

Новые стратегии обучения

Три основных инновации обеспечивают прирост качества:

Annealed Language Learning (ALL): постепенное введение языков (60 → 110 → 1833) и аннеалинг распределений семплирования от богатых к равномерным, чтобы малоресурсные языки получили влияние на поздних этапах без переобучения.
Inverse Masking Schedule: коэффициент маскировки снижается с 30% до 5%, что стимулирует сначала обучение в крупном масштабе, а затем тонкую настройку.
Мерджинг моделей из разных decay вариантов: несколько моделей с разными фокусами объединяют через TIES merging, чтобы сочетать сильные стороны без полного дообучения.

Результаты на бенчмарках

mmBERT демонстрирует хорошие результаты:

English NLU (GLUE): базовый mmBERT достигает 86.3, превосходя XLM-R (83.3) и приближаясь к ModernBERT (87.4), несмотря на то что большинство данных были неанглоязычными.
Multilingual NLU (XTREME): 72.8 против 70.4 у XLM-R, улучшения в классификации и QA.
Эмбеддинги (MTEB v2): паритет с ModernBERT по английскому и лидерство в мультиязычных метриках.
Code retrieval (CoIR): преимущество примерно в 9 пунктов над XLM-R, хотя специализированные проприетарные модели могут лидировать на узких данных.

Работа с малоресурсными языками

Аннеалированное обучение обеспечивает рост влияния малоресурсных языков на поздних фазах. На задачах для очень редких языков, таких как фарерский FoQA и тигринья TiQuAD, mmBERT заметно опережает модели o3 и Gemini 2.5 Pro. Это показывает, что аккуратно обученные энкодеры способны обобщать даже при крайне ограниченных данных.

Выигрыш в эффективности

mmBERT в 2–4 раза быстрее XLM-R и MiniLM при поддержке 8192 токенов. При этом он быстрее на 8192 токенах, чем старые энкодеры на 512 токенах. Прирост производительности достигается за счет рецепта ModernBERT, эффективных механизмов внимания и оптимизированных эмбеддингов, что обеспечивает длинные контексты без потери пропускной способности.

Итог для практики

mmBERT предлагает открытую, эффективную и масштабируемую замену устаревшим мультиязычным энкодерам. Комбинация 3 триллионов токенов, аннеалированной языковой программы, обратного графика маскировки и мерджинга моделей обеспечивает широкую генерализацию для высоко- и малоресурсных языков и крупный выигрыш по скорости и длине контекста.