Google AI Представляет TranslateGemma: Новые Модели Перевода
Изучите TranslateGemma, модели перевода от Google, поддерживающие 55 языков с улучшенной производительностью.
Обзор TranslateGemma
Google AI выпустила TranslateGemma, набор открытых моделей машинного перевода, основанных на Gemma 3 и предназначенных для 55 языков. Доступные в размерах 4B, 12B и 27B, они работают на мобильных устройствах, edge-аппаратуре, ноутбуках и на одной облачной инстанции H100 GPU или TPU.
Архитектура и Настройка
TranslateGemma не является отдельной архитектурой; это специализация Gemma 3, оптимизированная для перевода через двухступенчатую пайплайн после обучения:
- Супервизированная настройка на крупных параллельных корпусах.
- Обучение с подкреплением для улучшения качества перевода с использованием ансамбля многоуровневых сигналов.
Основная цель — повысить качество перевода, сохранив общее следование инструкциям Gemma 3.
Супервизированная Настройка на Разнообразных Данных
Супервизированная настройка использует публичные контрольные точки Gemma 3. Команда использует параллельные данные, комбинируя человеческие переводы и высококачественные синтетические переводы, сгенерированные моделями Gemini. Процесс создания синтетических данных включает многослойную фильтрацию, обеспечивая высокое качество результатов.
Языки с низкими ресурсами получают человеческие параллельные данные из наборов данных SMOL и GATITOS, расширяя доступность для недопредставленных языков. Важно, что 30% изначальной смеси Gemma 3 сохраняется для поддержания общих возможностей LLM модели.
Методология Обучения с Подкреплением
После настройки с подкреплением обучение с подкреплением повышает качество перевода, используя различные модели вознаграждений:
- MetricX 24 XXL QE: принципиальная регрессионная метрика.
- Gemma AutoMQM QE: предсказатели ошибок на уровне токенов.
- ChrF Metric: оценивает перекрытие n-грамм символов.
- Naturalness Autorater: штрафует непрофессиональное звучание переводов.
TranslateGemma использует алгоритмы, которые интегрируют вознаграждения на уровне последовательностей с токенами, оптимизируя распределение кредитов на основе обучающих данных.
Производительность на Бенчмарках
TranslateGemma была оценена по бенчмарку WMT24++ с использованием MetricX 24 и Comet22. Результаты показывают, что все модели превосходят производительность Gemma 3:
- 27B: MetricX улучшился с 4.04 (базовый уровень) до 3.09.
- 12B: MetricX улучшился с 4.86 до 3.60.
- 4B: MetricX улучшился с 6.97 до 5.32.
Это демонстрирует, что меньшие специализированные модели могут превышать большие базовые модели в различных задачах перевода.
Мультимодальные Возможности
TranslateGemma сохраняет возможности понимания изображений от Gemma 3. Оценки показывают улучшение показателей при переводе изображений, подтверждая, что улучшения текстового перевода в значительной мере переходят на мультимодальные контексты.
Ключевые Выводы
- TranslateGemma — это специализированная версия Gemma 3 для перевода на 55 языков.
- Обучение использует синтетические данные Gemini вместе с человеческими параллельными корпусами для повышения качества и охвата.
- Обучение с подкреплением использует метрики качества, нацеленные на улучшение перевода и беглости.
- Все размеры моделей показывают последовательные улучшения по сравнению с Gemma 3, что позволяет более эффективно выполнять задачи перевода.
- Открытые веса доступны на Hugging Face и Vertex AI, позволяя гибкие решения по развертыванию.
Заключение
Для получения дополнительных деталей обращайтесь к научной статье и весам модели.
Switch Language
Read this article in English