AU-Harness: открытая платформа для быстрой и масштабируемой оценки аудио-LLM

Почему нужен новый фреймворк для оценки аудио

Голосовой ИИ становится ключевым компонентом мультимодальных систем, позволяя ассистентам и интерактивным агентам понимать и рассуждать на основе аудио. Однако инструменты для оценки отстают: многие бенчмарки фрагментированы, медленны и узконаправлены, что затрудняет честное сравнение моделей и тестирование в реалистичных многотуровых сценариях.

AU-Harness: единый и масштабируемый инструмент

UT Austin и исследовательская команда ServiceNow выпустили AU-Harness — открытый набор инструментов для оценки больших аудио-языковых моделей. AU-Harness рассчитан на скорость, стандартизацию и расширяемость, позволяя исследователям проверять модели по широкому кругу задач в едином фреймворке.

Производительность и масштабирование

AU-Harness оптимизирован для пропускной способности и загрузки оборудования. Интеграция с движком vLLM позволяет использовать планировщик запросов на уровне токенов для параллельных оценок на нескольких узлах, а шардинг датасетов распределяет нагрузку пропорционально. Такая архитектура обеспечивает приближенное линейное масштабирование и эффективное использование вычислений. В практике AU-Harness показывает примерно на 127% большую пропускную способность и сокращает real-time factor почти на 60%, превращая многодневные прогонки в часы.

Гибкая настройка и многотуровая оценка

Инструмент поддерживает индивидуальные гиперпараметры для каждой модели в прогоне, такие как температура или максимум токенов, при сохранении единых протоколов. Фильтрация данных по акценту, длине аудио или уровню шума позволяет проводить целевые диагностики. Важная особенность — поддержка многотуровой оценки диалогов, что дает возможность тестировать непрерывность диалога, контекстное рассуждение и адаптивность в продолжительных взаимодействиях.

Широкий набор задач и нововведения

AU-Harness охватывает более 50 датасетов, свыше 380 подсетов и 21 задачу по шести категориям:

Две ключевые инновации — LLM-Adaptive Diarization, где диаризация оценивается через промптинговые подходы, а не через специализированные нейросети, и модуль Spoken Language Reasoning, проверяющий способность следовать и рассуждать над устными инструкциями.

Что показывают бенчмарки

Оценка лидирующих систем вроде GPT-4o, Qwen2.5-Omni и Voxtral-Mini-3B выявила сильные и слабые стороны. Модели уверенно справляются с ASR и устным вопросно-ответным тестированием, но испытывают трудности с временным рассуждением, например в задачах диаризации, и с выполнением сложных инструкций, когда они подаются в аудио. Отмечен разрыв по модальности инструкций: при переходе от текста к устной подаче результат падает до 9.5 баллов, что указывает на нерешенные проблемы в адаптации навыков рассуждения к аудио.

Открытость и сообщество

AU-Harness доступен как open source и сопровождается публичной таблицей лидеров, приглашая сообщество к воспроизводимости, сравнению и совместному развитию голосовых ИИ. В репозитории и проектной странице доступны статья, код, туториалы и ноутбуки для быстрого старта.

Полные материалы и бумага доступны на GitHub и arXiv.