mmBERT: 3 триллиона токенов, 1833 языка и ускорение 2–4× для мультиязычного кодирования

Зачем понадобился новый мультиязычный энкодер

XLM-RoBERTa в течение многих лет задавал тон в мультиязычных энкодерах. При этом исследовательское внимание сместилось к декодерным генеративным моделям, хотя энкодеры остаются эффективнее и часто превосходят декодеры в задачах эмбеддингов, поиска и классификации. Разработка современных мультиязычных энкодеров отставала, и появился запрос на актуальную замену.

Архитектура и конфигурации

mmBERT доступен в двух размерах. Базовая версия имеет 22 слоя трансформера, скрытое пространство 1152 и примерно 307 миллионов параметров (110 миллионов без учета эмбеддингов). Малая версия насчитывает порядка 140 миллионов параметров (42 миллиона без эмбеддингов).

Ключевые решения включают токенизатор Gemma 2 с словарем 256k, ротационные позиционные эмбеддинги RoPE и FlashAttention2 для ускорения внимания. Длина контекста расширена с 1024 до 8192 токенов за счет невыравненных эмбеддингов и скользящего окна внимания. Это позволяет обрабатывать контексты почти на порядок длиннее, чем у XLM-R, при более быстрой инференс работе.

Данные и этапы обучения

Модель обучали на примерно 3 триллионах токенов из 1 833 языков. Источники включают FineWeb2, Dolma, MegaWika v2, ProLong, StarCoder и другие. Доля английского в корпусе варьируется от 10 до 34 процентов в зависимости от фазы.

Этапы обучения:

Новые стратегии обучения

Три основных инновации обеспечивают прирост качества:

Результаты на бенчмарках

mmBERT демонстрирует хорошие результаты:

Работа с малоресурсными языками

Аннеалированное обучение обеспечивает рост влияния малоресурсных языков на поздних фазах. На задачах для очень редких языков, таких как фарерский FoQA и тигринья TiQuAD, mmBERT заметно опережает модели o3 и Gemini 2.5 Pro. Это показывает, что аккуратно обученные энкодеры способны обобщать даже при крайне ограниченных данных.

Выигрыш в эффективности

mmBERT в 2–4 раза быстрее XLM-R и MiniLM при поддержке 8192 токенов. При этом он быстрее на 8192 токенах, чем старые энкодеры на 512 токенах. Прирост производительности достигается за счет рецепта ModernBERT, эффективных механизмов внимания и оптимизированных эмбеддингов, что обеспечивает длинные контексты без потери пропускной способности.

Итог для практики

mmBERT предлагает открытую, эффективную и масштабируемую замену устаревшим мультиязычным энкодерам. Комбинация 3 триллионов токенов, аннеалированной языковой программы, обратного графика маскировки и мерджинга моделей обеспечивает широкую генерализацию для высоко- и малоресурсных языков и крупный выигрыш по скорости и длине контекста.