AU-Harness: открытая платформа для быстрой и масштабируемой оценки аудио-LLM
Почему нужен новый фреймворк для оценки аудио
Голосовой ИИ становится ключевым компонентом мультимодальных систем, позволяя ассистентам и интерактивным агентам понимать и рассуждать на основе аудио. Однако инструменты для оценки отстают: многие бенчмарки фрагментированы, медленны и узконаправлены, что затрудняет честное сравнение моделей и тестирование в реалистичных многотуровых сценариях.
AU-Harness: единый и масштабируемый инструмент
UT Austin и исследовательская команда ServiceNow выпустили AU-Harness — открытый набор инструментов для оценки больших аудио-языковых моделей. AU-Harness рассчитан на скорость, стандартизацию и расширяемость, позволяя исследователям проверять модели по широкому кругу задач в едином фреймворке.
Производительность и масштабирование
AU-Harness оптимизирован для пропускной способности и загрузки оборудования. Интеграция с движком vLLM позволяет использовать планировщик запросов на уровне токенов для параллельных оценок на нескольких узлах, а шардинг датасетов распределяет нагрузку пропорционально. Такая архитектура обеспечивает приближенное линейное масштабирование и эффективное использование вычислений. В практике AU-Harness показывает примерно на 127% большую пропускную способность и сокращает real-time factor почти на 60%, превращая многодневные прогонки в часы.
Гибкая настройка и многотуровая оценка
Инструмент поддерживает индивидуальные гиперпараметры для каждой модели в прогоне, такие как температура или максимум токенов, при сохранении единых протоколов. Фильтрация данных по акценту, длине аудио или уровню шума позволяет проводить целевые диагностики. Важная особенность — поддержка многотуровой оценки диалогов, что дает возможность тестировать непрерывность диалога, контекстное рассуждение и адаптивность в продолжительных взаимодействиях.
Широкий набор задач и нововведения
AU-Harness охватывает более 50 датасетов, свыше 380 подсетов и 21 задачу по шести категориям:
- Распознавание речи: от простого ASR до длинных записей и код-свитчинга
- Паралингвистика: эмоции, акцент, пол и распознавание говорящего
- Понимание аудио: сцены и музыкальные композиции
- Поняие устной речи: вопросно-ответные задачи, перевод и суммаризация диалогов
- Устное языковое рассуждение: speech-to-coding, function calling и выполнение многошаговых инструкций
- Безопасность и устойчивость: тестирование на робастность и выявление подделок
Две ключевые инновации — LLM-Adaptive Diarization, где диаризация оценивается через промптинговые подходы, а не через специализированные нейросети, и модуль Spoken Language Reasoning, проверяющий способность следовать и рассуждать над устными инструкциями.
Что показывают бенчмарки
Оценка лидирующих систем вроде GPT-4o, Qwen2.5-Omni и Voxtral-Mini-3B выявила сильные и слабые стороны. Модели уверенно справляются с ASR и устным вопросно-ответным тестированием, но испытывают трудности с временным рассуждением, например в задачах диаризации, и с выполнением сложных инструкций, когда они подаются в аудио. Отмечен разрыв по модальности инструкций: при переходе от текста к устной подаче результат падает до 9.5 баллов, что указывает на нерешенные проблемы в адаптации навыков рассуждения к аудио.
Открытость и сообщество
AU-Harness доступен как open source и сопровождается публичной таблицей лидеров, приглашая сообщество к воспроизводимости, сравнению и совместному развитию голосовых ИИ. В репозитории и проектной странице доступны статья, код, туториалы и ноутбуки для быстрого старта.
Полные материалы и бумага доступны на GitHub и arXiv.