NVIDIA представила Nemotron ASR для низкой задержки

Обзор

NVIDIA только что выпустила свою новую потоковую модель транскрипции на английском языке, Nemotron Speech ASR, специально созданную для голосовых агентов с низкой задержкой и живой субтитровки. Чекпоинт nvidia/nemotron-speech-streaming-en-0.6b на Hugging Face сочетает в себе кэш-сознанный энкодер FastConformer с декодером RNNT, настроенным на потоковые и пакетные нагрузки на современных GPU NVIDIA.

Дизайн модели, архитектура и предположения по вводу

Nemotron Speech ASR (Автоматическое Распознавание Речи) — это модель на 600M параметров, основанная на кэш-сознанном энкодере FastConformer с 24 слоями и декодером RNNT. Энкодер использует агрессивное 8-разовое свёртывание, чтобы сократить количество временных шагов, снижая затраты на вычисления и память для потоковых нагрузок. Модель принимает моноаудио 16 кГц и требует минимум 80 мс входного аудио на каждый фрагмент.

Задержка в реальном времени контролируется через настраиваемые размеры контекста. Модель предлагает 4 стандартные конфигурации фрагментов, что соответствует примерно 80 мс, 160 мс, 560 мс и 1.12 с аудио, которые управляются параметром att_context_size.

Кэш-сознанный поток, а не буферизованное скользящее окно

Традиционная «потоковая ASR» часто использует перекрывающиеся окна, повторно обрабатывая предыдущие данные. Nemotron Speech ASR хранит кэш состояний энкодера, позволяя обрабатывать каждый новый фрагмент только один раз. Это приводит к:

Не перекрывающейся обработке фреймов, что позволяет увеличивать масштаб работы с длиной аудио.
Предсказуемому росту памяти, так как размер кэша растет с длиной последовательности.
Стабильной задержке под нагрузкой, что критично для голосовых агентов.

Точность против задержки: WER при потоковых ограничениях

Nemotron Speech ASR оценивалась на наборе данных Hugging Face OpenASR, включая AMI, Earnings22, Gigaspeech и LibriSpeech. Точность сообщается в виде коэффициента ошибок слов (WER).

Показатели производительности

Примерно 7.84% WER при 0.16 с размере фрагмента.
Примерно 7.22% WER при 0.56 с размере фрагмента.
Примерно 7.16% WER при 1.12 с размере фрагмента.

Разработчики могут регулировать время вывода в зависимости от потребностей приложения, балансируя между задержкой и точностью.

##Пропускная способность и конкуренция на современных GPU Кэш-сознанный дизайн значительно влияет на конкурентоспособность. На NVIDIA H100 GPU Nemotron поддерживает около 560 параллельных потоков при размере фрагмента 320 мс, примерно 3x по сравнению с базовой потоковой системой. Похожие показатели производительности наблюдаются на RTX A5000 и DGX B200.

Стабильность задержки

Задержка остается стабильной даже при увеличении конкурентоспособности, с медианной задержкой около 182 мс при тестах с 127 параллельными WebSocket клиентами.

Данные для тренировок и интеграция в экосистему

Nemotron Speech ASR обучалась в основном на данных Granary от NVIDIA, в общей сложности около 285K часов аудио, включая различные общедоступные корпусы речи.

Ключевые выводы

Nemotron Speech ASR — это модель на 0.6B параметров для потоковой передачи, работающая с моноаудио 16 кГц с минимальным фрагментом в 80 мс.
Модель позволяет балансировать задержку и точность с 4 настраиваемыми размерами фрагментов, сохраняя WER между 7.2% и 7.8%.
Кэш-сознанный поток устраняет повторную обработку, обеспечивая более высокую производительность на различных GPU NVIDIA.
С высокой конкуренцией и низкой задержкой Nemotron показывает многообещающие результаты для приложений в реальном времени.
Выпущенная под NVIDIA Permissive Open Model License, она позволяет командам размещать и дорабатывать модель для специфических приложений.