Microsoft представила VibeVoice-ASR для звука длинной формы

Обзор VibeVoice-ASR

Microsoft выпустила VibeVoice-ASR как часть семейства open-source моделей голосового ИИ VibeVoice. Эта унифицированная модель распознавания речи обрабатывает 60-минутные длинные аудиофайлы за один проход и выводит структурированные транскрипции, используя информацию о том, кто, когда и о чем идет речь, с поддержкой настраиваемых горячих слов.

Экосистема VibeVoice

VibeVoice находится в едином репозитории, который также включает модели текстов в речь, TTS в реальном времени и автоматического распознавания речи, выпущенные под лицензией MIT. Эта экосистема использует непрерывные токенизаторы речи, работающие на частоте 7,5 Гц, и применяет фреймворк диффузии следующего токена, где большая языковая модель обрабатывает текстовые данные, а диффузионная головка генерирует акустические детали. Хотя он в основном документирован для TTS, этот фреймворк задает общий контекст для VibeVoice-ASR.

Преимущества ASR для длинного формата

В отличие от традиционных ASR-систем, которые сегментируют аудио, VibeVoice-ASR принимает до 60 минут непрерывного ввода в рамках бюджета длиной 64K токенов. Это позволяет сохранять глобальное представление всей сессии, поддерживая идентификацию говорящего и контекст темы в течение часа без необходимости частых сбросов.

Преимущества единого прохода

Почему единый проход?

Традиционные ASR-системы часто сегментируют длинное аудио, что может привести к потере глобального контекста. VibeVoice-ASR сохраняет контекст на протяжении всей записи, что особенно важно для таких задач, как транскрипция встреч или лекций. Этот единый проход упрощает процесс, устраняя необходимость в пользовательской логике для объединения гипотез или исправления меток спикеров на границах сегментов аудио.

Улучшенное распознавание с настраиваемыми горячими словами

Функциональность горячих слов

Настраиваемые горячие слова позволяют пользователям передавать специфическую терминологию, такую как названия продуктов или технические термины. Это руководство улучшает точность распознавания для терминов, специфичных для домена, без необходимости переобучения модели. Пользователь-разработчик может предоставить внутренние названия проектов во время предсказания, что делает его адаптируемым к различным продуктам с различным словарным запасом, но с похожими акустическими профилями.

Богатые выходные данные и диаризация

Структурированные транскрипции

Модель предоставляет богатые транскрипции, выполняя ASR, диаризацию и временные метки с возвратом структурированных выходных данных, указывающих, кто и когда говорил. Метрики оценки, такие как DER, cpWER и tcpWER, оценивают производительность модели на данных с несколькими говорящими, что актуально для сценариев встреч и лекций.

Ключевые выводы

VibeVoice-ASR предназначена для обработки аудио длительностью 60 минут за один проход.
Она выдает структурированные транскрипции с данными о спикерах и временными метками.
Горячие слова уточняют точность для специфических терминов домена.
Оценка сосредоточена на многоаспектных сценариях общения, которые имеют отношение к различным контекстам беседы.
Доступна под лицензией MIT с официальными весами и скриптами дообучения для экспериментов.