C3: Двуязычный бенчмарк, меняющий оценку сложных моделей устного диалога
Новый двуязычный бенчмарк C3 предлагает комплексную систему оценки сложных моделей устного диалога, учитывая фонологические и семантические неоднозначности в английских и китайских разговорах.
Сложности моделирования устного диалога
Модели устного диалога (SDM) играют ключевую роль в обеспечении естественного взаимодействия между человеком и ИИ. В отличие от текстовых моделей, устная речь содержит особые сложности: фонологическую неоднозначность, семантическую неоднозначность, пропуски слов, кореференцию и многократные реплики. Особенно сложно это для тональных языков, таких как китайский, где интонация меняет смысл.
Представление бенчмарка C3
Новый бенчмарк C3 предлагает двуязычную систему оценки на английском и китайском языках. В нем 1079 примеров, охватывающих пять ключевых феноменов: фонологическая неоднозначность, семантическая неоднозначность, пропуски, кореференция и многократные реплики. Включены пары аудио и текста (1586 пар с учетом многократных реплик) с тщательным контролем качества — аудио регенерируется или озвучивается человеком для чистоты и одинакового тембра.
Методика оценки: использование LLM и человеческих аннотаций
C3 применяет инновационный метод оценки с помощью больших языковых моделей (LLM), таких как GPT-4o и DeepSeek-R1, которые автоматически оценивают ответы SDM с высокой корреляцией с оценками людей (коэффициенты Пирсона и Спирмена выше 0.87). Для большинства задач используется сравнение транскрипций, для аудио-специфичных феноменов (например, интонация) — человеческая аннотация. Для пропусков и кореференции измеряются точность обнаружения и разрешения.
Результаты и выводы бенчмарка
Тестирование шести современных моделей показало:
- Неоднозначности сложнее для моделей, чем задачи, завязанные на контекст.
- Модели лучше справляются с английским, чем с китайским языком.
- Разные модели сильны в разных задачах: Qwen2.5-Omni лучше отслеживает контекст многократных реплик, GPT-4o-Audio-Preview лучше разрешает неоднозначности в английском.
- Обнаружить пропуски и кореференцию проще, чем правильно их разрешить.
Значение для будущих исследований
C3 демонстрирует, что современные SDM далеки от человеческого уровня в сложных разговорах и что особенности языков требуют специализированных подходов. Этот открытый и двуязычный бенчмарк создает основу для разработки более продвинутых систем устного диалога, способных понимать и участвовать в естественной коммуникации на нескольких языках.
Подробности и материалы доступны на GitHub и в полном тексте статьи.
Switch Language
Read this article in English