TransEvalnia: Продвинутая система оценки перевода на основе LLM с точностью, близкой к человеческой
TransEvalnia использует prompting и LLM для детальной оценки и ранжирования переводов с высокой точностью и часто превосходит традиционные модели на различных языковых парах.
Современная оценка перевода с помощью LLM
Системы перевода, построенные на больших языковых моделях (LLM), достигли такого уровня, что иногда превосходят по качеству работы человека. По мере усложнения задач, например, при переводе документов или литературных текстов, всё сложнее объективно оценивать прогресс. Традиционные метрики, такие как BLEU, остаются в использовании, но не объясняют причины выставленных оценок.
Детальная оценка качества вместо числовых показателей
Когда качество перевода приближается к человеческому уровню, пользователи требуют оценок, выходящих за рамки простых числовых значений. Им важна прозрачность с объяснениями по ключевым аспектам: точности, терминологии и соответствию аудитории. Такая детальная обратная связь помогает лучше понять результаты, выявлять ошибки и принимать обоснованные решения.
Новые метрики и оценка с обоснованием
Хотя BLEU долгое время был стандартом для оценки машинного перевода, его значимость снижается, поскольку современные системы сопоставимы с человеком или превосходят его. Новые метрики, такие как BLEURT, COMET и MetricX, дообучают мощные языковые модели для более точной оценки качества перевода. Крупные модели — GPT, PaLM2 — способны проводить оценки в режиме zero-shot и даже формировать отзывы в стиле MQM. Методики попарного сравнения улучшают согласованность с человеческими оценками. Исследования показывают, что запрос моделей объяснять свои решения повышает качество оценок, но такие подходы ещё недостаточно применяются в машинном переводе.
TransEvalnia: система оценки перевода на основе prompting
Исследователи из Sakana.ai создали TransEvalnia — систему, использующую prompting и LLM для оценки и ранжирования переводов. Она предоставляет подробную обратную связь по выбранным измерениям MQM, ранжирует переводы и выставляет оценки по шкале Лайкерта от 1 до 5, включая общий рейтинг. Систему тестировали с LLM Claude 3.5 и Qwen-2.5, и её оценки хорошо совпадали с человеческими. TransEvalnia показывает результаты, сопоставимые или превосходящие лидирующие модели, такие как MT-Ranker, на разных языковых парах, включая английский-японский и китайско-английский.
Методология и борьба с предвзятостью позиции
TransEvalnia оценивает переводы по частям, анализируя важные аспекты качества: точность, терминологию, соответствие аудитории и ясность. Для поэтических текстов, например хайку, вместо грамматики оценивается эмоциональный тон. Каждый фрагмент получает оценку от 1 до 5, после чего производится ранжирование. Для снижения предвзятости позиции исследователи сравнили несколько подходов: одноступенчатый, двухступенчатый и метод перемешивания, где последний показал наименьшую предвзятость. Метод без объяснений оказался менее прозрачным и более склонным к ошибкам. Человеческие эксперты проверили выборочные переводы для сопоставления с оценками системы.
Результаты и сравнение с другими системами
Команда сравнила TransEvalnia с MT-Ranker, COMET-22/23, XCOMET-XXL и MetricX-XXL на наборах данных с человеческими оценками. На WMT-2024 для пары английский-испанский MT-Ranker оказался лучше, благодаря большому объёму обучающих данных. Однако в большинстве других наборов TransEvalnia соответствовала или превосходила MT-Ranker; например, подход Qwen без объяснений выиграл на WMT-2023 для английский-немецкий. Анализ предвзятости позиции показал, что методы перемешивания стабильно имеют низкие показатели. Человеческие оценщики поставили Sonnet самые высокие средние оценки по шкале Лайкерта (4.37–4.61), а корреляция с человеческими суждениями была высокой (коэффициент Спирмена около 0.51–0.54).
Открытые данные и перспективы
Исследователи опубликовали все данные, результаты рассуждений и код для свободного использования. Дообучение Qwen заметно повысило качество, а борьба с предвзятостью позиции остаётся важным направлением для улучшения систем ранжирования в оценке перевода.
Подробнее читайте в оригинальной статье, а также ознакомьтесь с учебными материалами по AI Agent и Agentic AI. Следите за новостями Sakana.ai в Twitter и присоединяйтесь к ML-сообществу SubReddit с более чем 100 тысячами участников.
Switch Language
Read this article in English