Qwen3-TTS: Открытый многоязычный TTS с реальным временем

Обзор

Команда Qwen от Alibaba Cloud представила открытый доступ к Qwen3-TTS – семейству многоязычных моделей текст-в-говор. Ключевые задачи в одном пакете: клонирование голоса, создание голоса и высококачественная генерация речи.

Qwen3-TTS Обзор

Семейство моделей и возможности

Qwen3-TTS использует токенизатор речи 12 Гц и предлагает два размера языковой модели — 0.6B и 1.7B. Пакеты включают пять моделей, которые поддерживают десять языков, включая китайский, английский, японский и русский. Модель VoiceDesign включает создание голоса на основе естественных языковых описаний.

Архитектура, токенизатор и потоковая передача

Система с двойной архитектурой предсказывает дискретные акустические токены и управляет сигналами выравнивания. Работая на 80 мс за токен с токенизатором 12.5 кадр/с, обеспечивает высокое качество и эффективность, достигая низкой задержки в потоковой передаче.

Выравнивание и контроль

Используя многоэтапный процесс выравнивания, Qwen3-TTS осуществляет тонкую настройку вариантов целевого голоса, сохраняя основные возможности общей модели. Поддерживает выполнение инструкций в формате ChatML.

Бенчмарки и многоязычные результаты

Модель демонстрирует передовые показатели на многоязычных наборах данных, достигая наименьшего показателя ошибок слов (WER) в шести из десяти протестированных языков. Также демонстрирует высокие результаты безобъектного клонирования голоса.

Ключевые выводы

Открытое ПО: Лицензия Apache 2.0, покрывающая несколько задач в одном пакете.
Потоковая передача в реальном времени: Эффективный токенизатор обеспечивает время первой команды менее 120 мс.
Разнообразие моделей: Предлагает разнообразные функции от клонирования до индивидуального дизайна голоса.
Высокое качество многоязычности: Постоянно высокая схожесть голосов и низкие показатели ошибок на нескольких языках.