C3: Двуязычный бенчмарк, меняющий оценку сложных моделей устного диалога

Сложности моделирования устного диалога

Модели устного диалога (SDM) играют ключевую роль в обеспечении естественного взаимодействия между человеком и ИИ. В отличие от текстовых моделей, устная речь содержит особые сложности: фонологическую неоднозначность, семантическую неоднозначность, пропуски слов, кореференцию и многократные реплики. Особенно сложно это для тональных языков, таких как китайский, где интонация меняет смысл.

Представление бенчмарка C3

Новый бенчмарк C3 предлагает двуязычную систему оценки на английском и китайском языках. В нем 1079 примеров, охватывающих пять ключевых феноменов: фонологическая неоднозначность, семантическая неоднозначность, пропуски, кореференция и многократные реплики. Включены пары аудио и текста (1586 пар с учетом многократных реплик) с тщательным контролем качества — аудио регенерируется или озвучивается человеком для чистоты и одинакового тембра.

Методика оценки: использование LLM и человеческих аннотаций

C3 применяет инновационный метод оценки с помощью больших языковых моделей (LLM), таких как GPT-4o и DeepSeek-R1, которые автоматически оценивают ответы SDM с высокой корреляцией с оценками людей (коэффициенты Пирсона и Спирмена выше 0.87). Для большинства задач используется сравнение транскрипций, для аудио-специфичных феноменов (например, интонация) — человеческая аннотация. Для пропусков и кореференции измеряются точность обнаружения и разрешения.

Результаты и выводы бенчмарка

Тестирование шести современных моделей показало:

Неоднозначности сложнее для моделей, чем задачи, завязанные на контекст.
Модели лучше справляются с английским, чем с китайским языком.
Разные модели сильны в разных задачах: Qwen2.5-Omni лучше отслеживает контекст многократных реплик, GPT-4o-Audio-Preview лучше разрешает неоднозначности в английском.
Обнаружить пропуски и кореференцию проще, чем правильно их разрешить.

Значение для будущих исследований

C3 демонстрирует, что современные SDM далеки от человеческого уровня в сложных разговорах и что особенности языков требуют специализированных подходов. Этот открытый и двуязычный бенчмарк создает основу для разработки более продвинутых систем устного диалога, способных понимать и участвовать в естественной коммуникации на нескольких языках.