VoXtream начинает говорить с первого слова — открытый full-stream zero-shot TTS для реального времени

Что такое full-stream TTS

Большинство «стриминговых» TTS-систем генерируют звук пачками и требуют весь текст до старта, что даёт заметную паузу перед началом речи. Full-stream TTS принимает текст по ходу (например, слово за словом от LLM) и выпускает аудио синхронно с приходом текста, минимизируя буферизацию на стороне ввода и позволяя голосу начать раньше.

Как VoXtream начинает сразу после первого слова

VoXtream от исследовательской группы KTH по речи, музыке и слуху нацелен на минимизацию задержки начала речи. Модель способна начать синтез после первого слова, генерируя аудио кадрами по 80 мс и демонстрируя first-packet latency (FPL) около 102 мс на современном GPU с PyTorch compile. Ключевой приём — инкрементальный предсказатель фонем с динамическим look-ahead до 10 фонем, который стабилизирует просодию, но не блокирует старт генерации.

Архитектура

VoXtream — единая полностью авторегрессионная (AR) конвейерная система из трёх трансформеров:

Кодек Mimi даёт двойную токенизацию: первая кодовая книга используется как «семантический» контекст, остальные — для высококачественной реконструкции. Декодер Mimi восстанавливает сигнал по кадрам, что позволяет непрерывную выдачу аудио.

Производительность и бенчмарки

Репозиторий содержит скрипты для измерения FPL и real-time factor (RTF). Отчётные результаты:

В режиме full-stream на LibriSpeech-long (когда текст поступает слово за словом) VoXtream показывает WER 3.24% против 6.11% у CosyVoice2; в слушательских тестах VoXtream получает выраженное предпочтение по натуральности (p ≤ 5e-10), тогда как CosyVoice2 лучше по схожести говорящих.

Почему AR-архитектура выигрывает в задержке старта

Диффузионные и flow-вокодеры обычно работают чанками и требуют многошаговой сэмплизации, что создаёт нижнюю границу для FPL. VoXtream сохраняет все стадии AR и фрейм-синхронными (PT → TT → DT → Mimi decoder), поэтому первый 80 мс пакет выходит после одного прохода по стеку, а не после многоступенчатого сэмплера.

Данные для обучения и качество

VoXtream обучался на среднемасштабном корпусе около 9k часов: примерно 4.5k ч Emilia и 4.5k ч HiFiTTS-2 (поднабор 22 kHz), всё ресемплировано до 24 kHz. Команда делала диаризацию для удаления многоголосых клипов, фильтрацию транскриптов с помощью ASR и использовала NISQA для отбраковки некачественного аудио. Карта датасета детализирует препроцессинг, Mimi-токенизацию, MFA-выравнивания, метки длительности и шаблоны говорящих.

Анализ устойчивости и абляции

Таблица 1 показывает конкурентные метрики zero-shot (WER, UTMOS, схожесть говорящих) на SEED-TTS test-en и LibriSpeech test-clean. Абляции указывают, что добавление CSM Depth Transformer и энкодера говорящего заметно улучшает схожесть без существенного ухудшения WER. Субъективные тесты выполнены по протоколу, похожему на MUSHRA, с последующим тестом предпочтений для full-stream генерации.

Где VoXtream находится в ландшафте TTS

Основной вклад VoXtream — не новый кодек и не гигантская модель, а архитектура, ориентированная на задержку: авторегрессионная последовательность и токен длительности, которые сохраняют вводное стриминг-поведение. Для задач живых агентов, одновременного перевода или низкозадержного даббинга важен выбор: небольшая потеря в схожести голоса против многократного снижения FPL по сравнению с чанковыми NAR-вокодерами в условиях full-stream.

Где посмотреть и попробовать

Бумага, веса модели на Hugging Face и код доступны на странице проекта и в репозитории GitHub. В репозитории есть бенчмарки, учебные материалы и ноутбуки для оценки и интеграции VoXtream. Полные технические детали в статье на arXiv: https://arxiv.org/pdf/2509.15969