Оценка голосовых ассистентов в 2025: от WER к задаче-успеху, перехватам и галлюцинациям под шумом

Почему WER недостаточен

Word Error Rate (WER) показывает точность расшифровки, но не отражает, помогает ли ассистент пользователю выполнить задачу или вести диалог корректно. Два решения с похожим WER могут кардинально отличаться в пользовательском опыте из-за задержек, управления очередью хода, обработки прерываний, восстановления после недопонимания и устойчивости к акустическим и содержательным искажениям. Практические исследования показывают: для прогнозирования удовлетворенности нужны сигналы взаимодействия и метрики на уровне задач, а не только точность ASR.

Что измерять и как

  1. Сквозной успех задачи
  1. Перехват речи (barge-in) и управление ходом
  1. Галлюцинации под шумом (HUN)
  1. Следование инструкциям, безопасность и робастность
  1. Перцептуальное качество речи (TTS и enhancement)

Обзор бенчмарков

Заполнение пробелов

Конкретный воспроизводимый план

Практические замечания