mmBERT: 3 триллиона токенов, 1833 языка и ускорение 2–4× для мультиязычного кодирования
Зачем понадобился новый мультиязычный энкодер
XLM-RoBERTa в течение многих лет задавал тон в мультиязычных энкодерах. При этом исследовательское внимание сместилось к декодерным генеративным моделям, хотя энкодеры остаются эффективнее и часто превосходят декодеры в задачах эмбеддингов, поиска и классификации. Разработка современных мультиязычных энкодеров отставала, и появился запрос на актуальную замену.
Архитектура и конфигурации
mmBERT доступен в двух размерах. Базовая версия имеет 22 слоя трансформера, скрытое пространство 1152 и примерно 307 миллионов параметров (110 миллионов без учета эмбеддингов). Малая версия насчитывает порядка 140 миллионов параметров (42 миллиона без эмбеддингов).
Ключевые решения включают токенизатор Gemma 2 с словарем 256k, ротационные позиционные эмбеддинги RoPE и FlashAttention2 для ускорения внимания. Длина контекста расширена с 1024 до 8192 токенов за счет невыравненных эмбеддингов и скользящего окна внимания. Это позволяет обрабатывать контексты почти на порядок длиннее, чем у XLM-R, при более быстрой инференс работе.
Данные и этапы обучения
Модель обучали на примерно 3 триллионах токенов из 1 833 языков. Источники включают FineWeb2, Dolma, MegaWika v2, ProLong, StarCoder и другие. Доля английского в корпусе варьируется от 10 до 34 процентов в зависимости от фазы.
Этапы обучения:
- Предобучение: 2.3 трлн токенов по 60 языкам и коду.
- Средняя фаза: 600 млрд токенов по 110 языкам с упором на качественные источники.
- Фаза decay: 100 млрд токенов по 1 833 языкам для адаптации к малоресурсным языкам.
Новые стратегии обучения
Три основных инновации обеспечивают прирост качества:
- Annealed Language Learning (ALL): постепенное введение языков (60 → 110 → 1833) и аннеалинг распределений семплирования от богатых к равномерным, чтобы малоресурсные языки получили влияние на поздних этапах без переобучения.
- Inverse Masking Schedule: коэффициент маскировки снижается с 30% до 5%, что стимулирует сначала обучение в крупном масштабе, а затем тонкую настройку.
- Мерджинг моделей из разных decay вариантов: несколько моделей с разными фокусами объединяют через TIES merging, чтобы сочетать сильные стороны без полного дообучения.
Результаты на бенчмарках
mmBERT демонстрирует хорошие результаты:
- English NLU (GLUE): базовый mmBERT достигает 86.3, превосходя XLM-R (83.3) и приближаясь к ModernBERT (87.4), несмотря на то что большинство данных были неанглоязычными.
- Multilingual NLU (XTREME): 72.8 против 70.4 у XLM-R, улучшения в классификации и QA.
- Эмбеддинги (MTEB v2): паритет с ModernBERT по английскому и лидерство в мультиязычных метриках.
- Code retrieval (CoIR): преимущество примерно в 9 пунктов над XLM-R, хотя специализированные проприетарные модели могут лидировать на узких данных.
Работа с малоресурсными языками
Аннеалированное обучение обеспечивает рост влияния малоресурсных языков на поздних фазах. На задачах для очень редких языков, таких как фарерский FoQA и тигринья TiQuAD, mmBERT заметно опережает модели o3 и Gemini 2.5 Pro. Это показывает, что аккуратно обученные энкодеры способны обобщать даже при крайне ограниченных данных.
Выигрыш в эффективности
mmBERT в 2–4 раза быстрее XLM-R и MiniLM при поддержке 8192 токенов. При этом он быстрее на 8192 токенах, чем старые энкодеры на 512 токенах. Прирост производительности достигается за счет рецепта ModernBERT, эффективных механизмов внимания и оптимизированных эмбеддингов, что обеспечивает длинные контексты без потери пропускной способности.
Итог для практики
mmBERT предлагает открытую, эффективную и масштабируемую замену устаревшим мультиязычным энкодерам. Комбинация 3 триллионов токенов, аннеалированной языковой программы, обратного графика маскировки и мерджинга моделей обеспечивает широкую генерализацию для высоко- и малоресурсных языков и крупный выигрыш по скорости и длине контекста.