VERSA: Универсальный инструмент для оценки речи, аудио и музыки

Прогресс в генерации аудио и необходимость оценки

ИИ достиг значительных успехов в создании речи, музыки и различных аудиоматериалов, меняя коммуникации, развлечения и взаимодействие человека с компьютером. Создание аудио, похожего на человеческое, с помощью глубоких генеративных моделей стало реальностью, влияющей на множество отраслей. Однако оценка таких аудиоматериалов требует сложных, масштабируемых и объективных систем. Оценка сложна, так как включает не только точность сигнала, но и восприятие — естественность, эмоции, идентичность говорящего, музыкальное творчество. Традиционные субъективные оценки человеком дорогие, трудоемкие и подвержены искажениям, поэтому автоматизация оценки необходима.

Проблемы существующих методов оценки

Существующие подходы фрагментированы и непоследовательны. Человеческая оценка, хоть и считается золотым стандартом, страдает от психологических искажений и требует больших затрат труда и экспертных знаний, особенно в таких тонких областях, как синтез пения или эмоциональное выражение. Автоматические метрики сильно различаются в зависимости от сценария — улучшение речи, синтез или генерация музыки — и нет универсального стандарта или набора метрик. Это затрудняет сравнение и отслеживание прогресса.

Ограничения существующих инструментов

Такие инструменты, как ESPnet и SHEET, ориентированы в основном на обработку речи и имеют ограниченную поддержку музыки или смешанных аудиозадач. Расширенные решения, например AudioLDM-Eval, Stable-Audio-Metric и Sony Audio-Metrics, предлагают более широкий охват, но страдают от фрагментированной поддержки метрик и негибкой конфигурации. Популярные метрики — MOS, PESQ, SI-SNR, Fréchet Audio Distance — реализованы лишь частично. Также инструменты по-разному используют внешние ссылки — совпадающие или не совпадающие аудиозаписи, тексты, визуальные подсказки. Отсутствует централизованный и стандартизированный гибкий инструмент.

Представляем VERSA: Унифицированный набор для оценки

Исследователи из Carnegie Mellon University, Microsoft, Indiana University, Nanyang Technological University, University of Rochester, Renmin University, Shanghai Jiaotong University и Sony AI разработали VERSA. Это модульный Python-инструмент с 65 метриками и 729 конфигурациями, поддерживающий оценку речи, аудио и музыки в единой системе — впервые в отрасли. VERSA предлагает гибкие настройки и строгий контроль зависимостей, что облегчает использование без конфликтов. Инструмент открыт на GitHub и предназначен стать базовым стандартом.

Техническая архитектура и возможности

VERSA состоит из двух основных скриптов: scorer.py для вычисления метрик и aggregate_result.py для объединения результатов в отчеты. Поддерживает форматы PCM, FLAC, MP3, Kaldi-ARK и разные структуры файлов — от wav.scp до простых папок. Управление метриками происходит через YAML-конфигурации, позволяя выбирать из общего списка или создавать специализированные настройки (например, mcd_f0.yaml для оценки Mel Cepstral Distortion). Минимальные зависимости по умолчанию, с опциональной установкой дополнительных пакетов. Локальные форки внешних библиотек обеспечивают гибкость без жестких ограничений версий, повышая удобство и стабильность.

Широкий охват метрик и эффективность

VERSA поддерживает 22 независимых метрики без ссылок, 25 зависимых с совпадающими ссылками, 11 с несовпадающими и 5 распределительных для генеративных моделей. Примеры: SI-SNR и VAD — независимые, PESQ и STOI — зависимые. Всего 54 метрики для речи, 22 для аудио и 22 для музыки. Также поддерживается использование внешних ресурсов — текста и визуальных данных, что важно для мультимодальных оценок. По сравнению с другими инструментами, такими как AudioCraft (6 метрик) и Amphion (15), VERSA предлагает значительно больше возможностей.

Влияние на исследования и разработку

VERSA снижает субъективность, повышает сопоставимость через единый набор метрик и упрощает исследования, объединяя методы в одной платформе. Более 700 вариантов конфигураций избавляют от необходимости использовать разрозненные инструменты. Это способствует воспроизводимости и честному сравнению, что критично для развития технологий генеративного звука.

Ключевые моменты

65 метрик и 729 вариантов для оценки речи, аудио и музыки
Поддержка форматов PCM, FLAC, MP3, Kaldi-ARK
54 метрики для речи, 22 для аудио, 22 для музыки
Два основных скрипта для оценки и отчетности
Строгий, но гибкий контроль зависимостей
Поддержка совпадающих и несовпадающих ссылок, текста и визуальных данных
Значительный прогресс по сравнению с ESPnet и Amphion
Открытый релиз на GitHub с целью стать стандартом
Конфигурационная гибкость с 729 возможными настройками
Решение проблем субъективности и неэффективности человеческой оценки

Для подробностей ознакомьтесь с официальной статьей, демо на Hugging Face и репозиторием GitHub. Следите за новостями в Twitter, присоединяйтесь к Telegram-каналу и LinkedIn-группе. Также рекомендуем зарегистрироваться на миниконференцию miniCON по AGENTIC AI с мастер-классами и сертификатами.