NVIDIA Запускает PersonaPlex-7B-v1: Модель Речи в Реальном Времени

Обзор

Исследователи NVIDIA выпустили PersonaPlex-7B-v1 — модель, обеспечивающую полудуплексное преобразование речи, созданную для естественных голосовых взаимодействий с точным контролем персонажа.

Переход от традиционных моделей к PersonaPlex

Обычно голосовые помощники работают в каскаде: автоматическое распознавание речи (ASR) преобразует речь в текст, языковая модель формирует текстовый ответ, а TTS возвращает его в аудио. Этот подход вызывает задержки и не справляется с перекрывающейся речью и перерывами.

PersonaPlex упрощает этот процесс, используя одну трансформаторную модель. Она производит потоковое понимание и генерацию речи в одной архитектуре, работая с непрерывным аудио, закодированным с помощью нейронного кодека. Модель оптимизирует предсказания текстовых и аудиотокенов, способствуя естественным динамикам разговора, таким как перекрытие и быстрая смена реплик.

Двойная потоковая конфигурация

Модель PersonaPlex функционирует через двойную потоковую настройку. Один поток сосредоточен на пользовательском аудио, другой — на речи и тексте агента. Оба потока делят состояние модели, позволяя агенту слушать, в то время как он говорит, адаптироваться в реальном времени к прерываниям пользователя. Эта архитектура черпает вдохновение из фреймворка полной дуплекса Kyutai Moshi.

Определение разговорной идентичности

PersonaPlex использует два типа подсказок:

Голосовая подсказка: Кодирует акустические качества, стиль речи и просодию через серию аудиотокенов.
Текстовая подсказка: Описывает роль, предысторию и контекст сценария.

Также системная подсказка позволяет использовать до 200 токенов для персонализации информации, такой как имя и организация.

Техническая архитектура и обучение

С 7 миллиардами параметров, PersonaPlex использует архитектуру Moshi и построена на основном языковом моделировании Helium. Кодировщик речи Mimi, объединяющий слоистые ConvNet и Transformer, переводит звуковые волны в дискретные токены. Декодер обрабатывает эти токены для генерации выходного аудио с частотой дискретизации 24 кГц.

Данные обучения

Обучение включает смесь реальных и синтетических диалогов, используя 7,303 звонков из корпуса Fisher English (1,217 часов), дополненных подсказками, созданными с использованием GPT-OSS-120B для разнообразных стилей разговора. Синтетические данные играют важную роль: 39,322 разговоров для помощника и 105,410 мышиных разговоров с клиентами создавались.

Оценка производительности

PersonaPlex оценивается с помощью FullDuplexBench и ServiceDuplexBench для взаимодействия с клиентами. Она превосходит в таких метриках, как плавная смена реплик и обработка прерываний, достигая коэффициента захвата 0.908 и 0.950 соответственно, при этом поддерживая низкую задержку.

Ключевые моменты

Архитектура: 7-миллиардная модель разговорной системы, разработанная для полудуплексного взаимодействия.
Оптимизированная обработка: Интегрирует предсказания аудио и текста в бесшовное взаимодействие.
Контроль персонажа: Использует гибридные подсказки для определения черт характера и контекста разговора.
Разнообразное обучение: Смешивает реальные и синтетические диалоги для надежного обучения разговору.
Высокая производительность: Демонстрирует превосходную эффективность при обработке прерываний пользователя и поддержании качества диалога.