Tencent HY-MT1.5: Запуск новых моделей перевода

Обзор

Исследователи из Tencent Hunyuan выпустили HY-MT1.5 — семью многязычных машинных переводов, нацеленных как на мобильные устройства, так и на облачные системы с одинаковыми рецептами и метриками обучения. Эта модель включает две вариации: HY-MT1.5-1.8B и HY-MT1.5-7B, которые поддерживают взаимный перевод на 33 языках с 5 этническими и диалектными вариантами. Обе модели доступны на GitHub и Hugging Face с открытыми весами.

Семейство моделей и цели развертывания

HY-MT1.5-7B является улучшенной версией чемпионской системы WMT25 Hunyuan-MT-7B, оптимизированной для объяснительного перевода и смешанных языковых сценариев. Она поддерживает организацию терминологии, контекстный перевод и формализованный перевод.

HY-MT1.5-1.8B — это компактная версия, имеющая менее одной трети параметров от HY-MT1.5-7B при сопоставимой производительности в отчетах. После квантизации модель 1.8B может работать на крайних устройствах и поддерживать перевод в реальном времени.

Квантизированная HY-MT1.5-1.8B работает на устройствах с примерно 1 ГБ памяти и достигает средней времени ответа около 0.18 секунд для китайских входов из 50 токенов, превосходя многие коммерческие API перевода. В то время как HY-MT1.5-7B предполагает задержку около 0.45 секунд для высококачественных выходов.

Целостная структура обучения

HY-MT1.5 определяется как язык модели, специфичный для перевода, использующий многоступенчатую обучающую структуру:

Общая предобработка: Начинается с многоязычного текста для формирования общих представлений.
MT-ориентированная предобработка: Экспозиция модели к параллельным корпусам для выравнивания распределения с задачами перевода.
Контролируемая дообучение: Использует высококачественные параллельные данные для повышения точности модели.
Дистилляция по политике от 7B до 1.8B: HY-MT1.5-7B управляет HY-MT1.5-1.8B, сохраняя критически важные поведения перевода за меньшие затраты.
Обучение с подкреплением с оценкой на основе критериев: Оптимизация моделей на основе тщательной оценки человеческими экспертами.

Эта уникальная структура отличает разработку машинного перевода от обучения ориентированных на чат LLM.

Результаты оценки по сравнению с открытыми и коммерческими системами

HY-MT1.5 оценивалась на Flores 200, WMT25 и на бенчмарке перевода с мандарина на языки меньшинств:

Flores 200: HY-MT1.5-7B достигла оценок XCOMET-XXL 0.8690 для ZH до XX, и 0.9093 для EN до XX, превосходя специализированные модели и конкурируя с большими моделями, такими как Qwen3-235B-A22B.
WMT25: Оценки составили 0.6159, превышая другие переводческие модели.
Мандарин к языкам меньшинств: Оценки достигли 0.6174, что среди самых высоких записанных.

Оценка людей (по шкале от 0 до 4) для переводов показала, что HY-MT1.5-1.8B достигла средней оценки 2.74, превышая другие ведущие системы.

Практические функции для продуктового использования

HY-MT1.5 предоставляет три ключевых возможности в производственных условиях:

Организация терминологии: Позволяет контролировать переводы, критически важные в специализированных областях.
Контекстный перевод: Регулирует переводы на основе контекстуальных подсказок.
Формат-сохраняющий перевод: Поддерживает структурную целостность текста во время перевода, что необходимо для HTML или XML контента.

Эти функции функционируют через форматы подсказок, доступные при использовании публичных весов.

Квантизация и развертывание на устройствах

HY-MT1.5-1.8B прошла квантизацию FP8 и Int4, позволяя эффективное развертывание:

FP8 остается близким по качеству к полной точности, тогда как Int4 демонстрирует некоторые потери качества. Оба варианта доступны для реализации на Hugging Face.

Ключевые выводы

HY-MT1.5 представляет собой две модели, поддерживающие переводы на 33 языках с открытыми весами.
HY-MT1.5-1.8B оптимален для развертывания в крайних условиях, обеспечивая низкую задержку и высокую производительность.
HY-MT1.5-7B конкурентоспособен по сравнению с более крупными моделями с применением надежной обучающей структуры для эффективной работы.
Улучшенные функции направлены на потребности производства, поддерживая различные среды развертывания.