NVIDIA Streaming Sortformer: моментальная реал‑тайм диаризация спикеров для встреч и звонков

Кратко о решении

Streaming Sortformer от NVIDIA — это модель для реального времени, которая определяет, кто говорит в ходе встреч, звонков и голосовых приложений прямо по ходу разговора. Модель рассчитана на низкую задержку при запуске на GPU, оптимизирована для английского и проверена на мандаринском, умеет отслеживать до четырех одновременных говорящих с точностью до миллисекунд.

Основные возможности

Модель выполняет покадровую диаризацию в реальном времени, присваивая каждому высказыванию метку говорящего, например spk_0, и точную временную метку. Ключевые преимущества:

Мультиспикерная работа в реальном времени: надежно помечает от двух до четырех участников и сохраняет согласованные метки при их появлении и уходе.
Низкая задержка: обрабатывает аудио малыми перекрывающимися фрагментами для минимальной задержки, что важно для живых транскриптов и аналитики.
Ускорение на GPU: интеграция с NVIDIA NeMo и Riva для промышленного развёртывания.
Многоязычность: основная настройка на английский, подтвержденная работа на мандаринском и хорошие результаты на других наборах данных.
Конкурентная точность: более низкий уровень ошибок диаризации по сравнению с рядом недавних потоковых систем.

Как это работает: архитектура

Streaming Sortformer сочетает сверточные модули, Fast-Conformer и трансформеры для получения эмбеддингов говорящих и покадровых меток. Важные элементы:

Предобработка аудио: сверточный модуль сжимает сырое аудио в компактное представление, снижая вычислительные затраты при сохранении акустических признаков.
Контекстно-зависимая кодировка: многоуровневый Fast-Conformer извлекает эмбеддинги, которые затем проходят через 18-слойный Transformer с размером скрытого слоя 192 и двумя полносвязными слоями с output в виде сигмоид для каждого кадра.
Кеш говорящих по порядку появления (AOSC): динамическая память, в которой хранятся эмбеддинги обнаруженных участников. Новые фрагменты сравниваются с этим кешем, что обеспечивает согласованность меток и решает проблему перестановки говорящих без дорогостоящих перерасчетов.
Обучение end-to-end: модель объединяет разделение и маркировку говорящих в единую сеть, без отдельной детекции активности голоса и кластеризации.

Интеграция и развёртывание

Streaming Sortformer открыт и готов к промышленному использованию. Его можно внедрить через NVIDIA NeMo или Riva, а также использовать предобученные модели на Hugging Face. Модель принимает 16 kHz моно WAV и возвращает матрицу вероятностей активности говорящих по кадрам, что удобно для сборки собственных пайплайнов транскрипции и аналитики.

Практические сценарии

Низкая задержка и точные метки делают модель полезной в таких задачах:

Встречи и продуктивность: живые транскрипты с указанием говорящих для удобного распределения задач.
Контакт‑центры: отделение голосов агента и клиента для соответствия требованиям, контроля качества и коучинга в реальном времени.
Голосовые ассистенты: улучшение учета очередности и контекста в диалогах.
Медиа и вещание: автоматическая маркировка говорящих для редактирования и транскрипции.
Корпоративная соответствие: формирование аудируемых логов с разрешением, кто и когда говорил.

Производительность и ограничения

В бенчмарках модель показывает более низкий DER по сравнению с рядом потоковых систем, но текущая версия оптимизирована для сессий до четырех говорящих. Результаты могут снижаться в очень шумных условиях или для недостаточно представленных языков. Масштабирование на большие группы участников требует дальнейших исследований и возможной адаптации.

Кому это важно

Streaming Sortformer представляет собой практическое решение для команд, которые нуждаются в быстром и точном определении говорящих в реальном времени. Благодаря ускорению на GPU и удобным путям интеграции модель подходит для живых транскриптов, аналитики контакт‑центров, голосовых продуктов и медиапайплайнов.

NVIDIA Streaming Sortformer: моментальная реал‑тайм диаризация спикеров для встреч и звонков

Switch Language