Tencent HY-MT1.5: Запуск новых моделей перевода
Узнайте о HY-MT1.5 от Tencent, который улучшает переводы на устройствах и в облаке.
Обзор
Исследователи из Tencent Hunyuan выпустили HY-MT1.5 — семью многязычных машинных переводов, нацеленных как на мобильные устройства, так и на облачные системы с одинаковыми рецептами и метриками обучения. Эта модель включает две вариации: HY-MT1.5-1.8B и HY-MT1.5-7B, которые поддерживают взаимный перевод на 33 языках с 5 этническими и диалектными вариантами. Обе модели доступны на GitHub и Hugging Face с открытыми весами.
Семейство моделей и цели развертывания
HY-MT1.5-7B является улучшенной версией чемпионской системы WMT25 Hunyuan-MT-7B, оптимизированной для объяснительного перевода и смешанных языковых сценариев. Она поддерживает организацию терминологии, контекстный перевод и формализованный перевод.
HY-MT1.5-1.8B — это компактная версия, имеющая менее одной трети параметров от HY-MT1.5-7B при сопоставимой производительности в отчетах. После квантизации модель 1.8B может работать на крайних устройствах и поддерживать перевод в реальном времени.
Квантизированная HY-MT1.5-1.8B работает на устройствах с примерно 1 ГБ памяти и достигает средней времени ответа около 0.18 секунд для китайских входов из 50 токенов, превосходя многие коммерческие API перевода. В то время как HY-MT1.5-7B предполагает задержку около 0.45 секунд для высококачественных выходов.
Целостная структура обучения
HY-MT1.5 определяется как язык модели, специфичный для перевода, использующий многоступенчатую обучающую структуру:
- Общая предобработка: Начинается с многоязычного текста для формирования общих представлений.
- MT-ориентированная предобработка: Экспозиция модели к параллельным корпусам для выравнивания распределения с задачами перевода.
- Контролируемая дообучение: Использует высококачественные параллельные данные для повышения точности модели.
- Дистилляция по политике от 7B до 1.8B: HY-MT1.5-7B управляет HY-MT1.5-1.8B, сохраняя критически важные поведения перевода за меньшие затраты.
- Обучение с подкреплением с оценкой на основе критериев: Оптимизация моделей на основе тщательной оценки человеческими экспертами.
Эта уникальная структура отличает разработку машинного перевода от обучения ориентированных на чат LLM.
Результаты оценки по сравнению с открытыми и коммерческими системами
HY-MT1.5 оценивалась на Flores 200, WMT25 и на бенчмарке перевода с мандарина на языки меньшинств:
- Flores 200: HY-MT1.5-7B достигла оценок XCOMET-XXL 0.8690 для ZH до XX, и 0.9093 для EN до XX, превосходя специализированные модели и конкурируя с большими моделями, такими как Qwen3-235B-A22B.
- WMT25: Оценки составили 0.6159, превышая другие переводческие модели.
- Мандарин к языкам меньшинств: Оценки достигли 0.6174, что среди самых высоких записанных.
Оценка людей (по шкале от 0 до 4) для переводов показала, что HY-MT1.5-1.8B достигла средней оценки 2.74, превышая другие ведущие системы.
Практические функции для продуктового использования
HY-MT1.5 предоставляет три ключевых возможности в производственных условиях:
- Организация терминологии: Позволяет контролировать переводы, критически важные в специализированных областях.
- Контекстный перевод: Регулирует переводы на основе контекстуальных подсказок.
- Формат-сохраняющий перевод: Поддерживает структурную целостность текста во время перевода, что необходимо для HTML или XML контента.
Эти функции функционируют через форматы подсказок, доступные при использовании публичных весов.
Квантизация и развертывание на устройствах
HY-MT1.5-1.8B прошла квантизацию FP8 и Int4, позволяя эффективное развертывание:
- FP8 остается близким по качеству к полной точности, тогда как Int4 демонстрирует некоторые потери качества. Оба варианта доступны для реализации на Hugging Face.
Ключевые выводы
- HY-MT1.5 представляет собой две модели, поддерживающие переводы на 33 языках с открытыми весами.
- HY-MT1.5-1.8B оптимален для развертывания в крайних условиях, обеспечивая низкую задержку и высокую производительность.
- HY-MT1.5-7B конкурентоспособен по сравнению с более крупными моделями с применением надежной обучающей структуры для эффективной работы.
- Улучшенные функции направлены на потребности производства, поддерживая различные среды развертывания.
Switch Language
Read this article in English