VERSA: Универсальный инструмент для оценки речи, аудио и музыки
VERSA — новый универсальный инструмент, объединяющий 65 метрик для оценки речи, аудио и музыки с высокой гибкостью и стандартизацией генеративных аудио моделей.
Прогресс в генерации аудио и необходимость оценки
ИИ достиг значительных успехов в создании речи, музыки и различных аудиоматериалов, меняя коммуникации, развлечения и взаимодействие человека с компьютером. Создание аудио, похожего на человеческое, с помощью глубоких генеративных моделей стало реальностью, влияющей на множество отраслей. Однако оценка таких аудиоматериалов требует сложных, масштабируемых и объективных систем. Оценка сложна, так как включает не только точность сигнала, но и восприятие — естественность, эмоции, идентичность говорящего, музыкальное творчество. Традиционные субъективные оценки человеком дорогие, трудоемкие и подвержены искажениям, поэтому автоматизация оценки необходима.
Проблемы существующих методов оценки
Существующие подходы фрагментированы и непоследовательны. Человеческая оценка, хоть и считается золотым стандартом, страдает от психологических искажений и требует больших затрат труда и экспертных знаний, особенно в таких тонких областях, как синтез пения или эмоциональное выражение. Автоматические метрики сильно различаются в зависимости от сценария — улучшение речи, синтез или генерация музыки — и нет универсального стандарта или набора метрик. Это затрудняет сравнение и отслеживание прогресса.
Ограничения существующих инструментов
Такие инструменты, как ESPnet и SHEET, ориентированы в основном на обработку речи и имеют ограниченную поддержку музыки или смешанных аудиозадач. Расширенные решения, например AudioLDM-Eval, Stable-Audio-Metric и Sony Audio-Metrics, предлагают более широкий охват, но страдают от фрагментированной поддержки метрик и негибкой конфигурации. Популярные метрики — MOS, PESQ, SI-SNR, Fréchet Audio Distance — реализованы лишь частично. Также инструменты по-разному используют внешние ссылки — совпадающие или не совпадающие аудиозаписи, тексты, визуальные подсказки. Отсутствует централизованный и стандартизированный гибкий инструмент.
Представляем VERSA: Унифицированный набор для оценки
Исследователи из Carnegie Mellon University, Microsoft, Indiana University, Nanyang Technological University, University of Rochester, Renmin University, Shanghai Jiaotong University и Sony AI разработали VERSA. Это модульный Python-инструмент с 65 метриками и 729 конфигурациями, поддерживающий оценку речи, аудио и музыки в единой системе — впервые в отрасли. VERSA предлагает гибкие настройки и строгий контроль зависимостей, что облегчает использование без конфликтов. Инструмент открыт на GitHub и предназначен стать базовым стандартом.
Техническая архитектура и возможности
VERSA состоит из двух основных скриптов: scorer.py для вычисления метрик и aggregate_result.py для объединения результатов в отчеты. Поддерживает форматы PCM, FLAC, MP3, Kaldi-ARK и разные структуры файлов — от wav.scp до простых папок. Управление метриками происходит через YAML-конфигурации, позволяя выбирать из общего списка или создавать специализированные настройки (например, mcd_f0.yaml для оценки Mel Cepstral Distortion). Минимальные зависимости по умолчанию, с опциональной установкой дополнительных пакетов. Локальные форки внешних библиотек обеспечивают гибкость без жестких ограничений версий, повышая удобство и стабильность.
Широкий охват метрик и эффективность
VERSA поддерживает 22 независимых метрики без ссылок, 25 зависимых с совпадающими ссылками, 11 с несовпадающими и 5 распределительных для генеративных моделей. Примеры: SI-SNR и VAD — независимые, PESQ и STOI — зависимые. Всего 54 метрики для речи, 22 для аудио и 22 для музыки. Также поддерживается использование внешних ресурсов — текста и визуальных данных, что важно для мультимодальных оценок. По сравнению с другими инструментами, такими как AudioCraft (6 метрик) и Amphion (15), VERSA предлагает значительно больше возможностей.
Влияние на исследования и разработку
VERSA снижает субъективность, повышает сопоставимость через единый набор метрик и упрощает исследования, объединяя методы в одной платформе. Более 700 вариантов конфигураций избавляют от необходимости использовать разрозненные инструменты. Это способствует воспроизводимости и честному сравнению, что критично для развития технологий генеративного звука.
Ключевые моменты
- 65 метрик и 729 вариантов для оценки речи, аудио и музыки
- Поддержка форматов PCM, FLAC, MP3, Kaldi-ARK
- 54 метрики для речи, 22 для аудио, 22 для музыки
- Два основных скрипта для оценки и отчетности
- Строгий, но гибкий контроль зависимостей
- Поддержка совпадающих и несовпадающих ссылок, текста и визуальных данных
- Значительный прогресс по сравнению с ESPnet и Amphion
- Открытый релиз на GitHub с целью стать стандартом
- Конфигурационная гибкость с 729 возможными настройками
- Решение проблем субъективности и неэффективности человеческой оценки
Для подробностей ознакомьтесь с официальной статьей, демо на Hugging Face и репозиторием GitHub. Следите за новостями в Twitter, присоединяйтесь к Telegram-каналу и LinkedIn-группе. Также рекомендуем зарегистрироваться на миниконференцию miniCON по AGENTIC AI с мастер-классами и сертификатами.
Switch Language
Read this article in English