Tencent представила Hunyuan-MT-7B и Chimera-7B: прорыв в открытом мультиязычном переводе

сентября 3, 2025 · 3 min

Новые открытые модели от Tencent Hunyuan

Команда Hunyuan из Tencent выпустила две открытые системы перевода: Hunyuan-MT-7B, 7-миллиардную модель перевода, и Hunyuan-MT-Chimera-7B, ансамблевую модель с подходом weak-to-strong fusion. Оба решения нацелены на мультиязычный машинный перевод и были представлены вместе с участием Tencent в задаче WMT2025. Hunyuan-MT-7B заняла первое место в 30 из 31 языковой пары.

Архитектура и возможности моделей

Hunyuan-MT-7B — модель на 7 млрд параметров, способная на взаимный перевод между 33 языками, включая китайские меньшинства: тибетский, монгольский, уйгурский и казахский. Модель оптимизирована для задач с большим и малым объемом данных и показывает лучшие результаты среди моделей сопоставимого размера.

Hunyuan-MT-Chimera-7B представляет собой интегрированную weak-to-strong fusion систему. На этапе инференса она комбинирует несколько кандидатных переводов и применяет награды и методы агрегации для получения усовершенствованного финального перевода. По заявлению авторов, Chimera-7B — первый открытый модель такого типа и она улучшает качество по сравнению с одиночными системами.

Методика обучения

Tencent описывает пятиступенчатую схему обучения:

Общая предобучение: 1.3 триллиона токенов, охватывающих 112 языков и диалектов. Корпусы оценивались по ценности знаний, аутентичности и стилю письма, использовались метки для дисциплин, отраслей и тем.
MT-ориентированное предобучение: моноязычные корпуса (mC4, OSCAR) фильтровались с помощью fastText для определения языка, minLSH для дедупликации и KenLM для перплексити-фильтрации. Параллельные корпуса из OPUS и ParaCrawl фильтровались через CometKiwi. 20% общей предобучающей выборки воспроизводятся, чтобы избежать катастрофического забывания.
Супервизированная дообучка (SFT): выполнялась в двух стадиях. Стадия I использовала примерно 3 млн параллельных пар из Flores-200, тестов WMT, курированных данных Mandarin|minority, синтетических пар и данных для instruction tuning. Стадия II отобрала около 268k высококачественных пар через автоматическое скорирование (CometKiwi, GEMBA) и ручную проверку.
Обучение с подкреплением (RL): использован алгоритм GRPO с составной функцией вознаграждения. Качество измерялось XCOMET-XXL и DeepSeek-V3-0324. Также применялись награды, учитывающие терминологию, и штрафы за повторения.
Weak-to-strong RL: применен в Chimera-7B. Генерируются множественные кандидаты, которые агрегируются и отбираются по вознаграждению, что повышает устойчивость и уменьшает повторяющиеся ошибки.

Оценки и сравнение

Автоматические бенчмарки показывают впечатляющие результаты:

WMT24pp (English⇔XX): Hunyuan-MT-7B набрала 0.8585 по XCOMET-XXL, опередив более крупные закрытые модели, такие как Gemini-2.5-Pro (0.8250) и Claude-Sonnet-4 (0.8120).
FLORES-200 (33 языка, 1056 пар): Hunyuan-MT-7B достигла 0.8758 (XCOMET-XXL), превзойдя открытые базовые модели, включая Qwen3-32B (0.7933).
Mandarin⇔языки меньшинств: показатель 0.6082 (XCOMET-XXL), лучше, чем у Gemini-2.5-Pro (0.5811), что подтверждает существенные улучшения в low-resource сценариях.

По сравнению с Google Translate модель превосходит его на 15–65% в разных категориях оценивания. При этом Hunyuan-MT-7B опережает специализированные модели вроде Tower-Plus-9B и Seed-X-PPO-7B, несмотря на меньший размер. Chimera-7B добавляет порядка 2.3% к FLORES-200, особенно в направлениях Chinese⇔Other и non-English⇔non-Chinese.

Человеческая оценка по мультидоменному сету (социальная, медицинская, юридическая, интернет) показала: Hunyuan-MT-7B средний балл 3.189, Gemini-2.5-Pro 3.223, DeepSeek-V3 3.219, Google Translate 2.344. Это демонстрирует, что 7 млрд модель может приближаться к качеству гораздо более крупных закрытых систем.

Примеры из практики

В отчете приведены реальные кейсы:

Культурные референсы: корректный перевод названия платформы small red potato как REDnote, а не буквальный перевод ‘сладкий картофель’.
Идиомы: правильное понимание фразы ‘You are killing me’ как выражения смеха, а не буквального смысла.
Медицинские термины: точный перевод ‘uric acid kidney stones’, тогда как некоторые базовые модели порождали искаженные варианты.
Языки меньшинств: связные переводы для казахского и тибетского, где другие системы дают бессмыслицу.
Улучшения Chimera: заметны в игровой лексике, интенсификаторах и спортивной терминологии благодаря агрегации кандидатов и оптимизации через RL.

Значение для сообщества

Открытый релиз Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B предоставляет сообществу исследователей и инженеров доступ к мощным инструментам для мультиязычного перевода. Комбинация продуманной предобучающей схемы, тщательной подготовки данных и методов RL показывает практический путь к улучшению качества как в частых, так и в редких языковых парах. Для детальных технических сведений и материалов по воспроизводимости смотрите репозиторий и технический отчет команды:

https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf https://github.com/Tencent-Hunyuan/Hunyuan-MT