Qwen3-TTS: Открытый многоязычный TTS с реальным временем
Изучите Qwen3-TTS от Alibaba Cloud — многоязычную систему TTS с управлением голосом и мгновенной реакцией.
Обзор
Команда Qwen от Alibaba Cloud представила открытый доступ к Qwen3-TTS – семейству многоязычных моделей текст-в-говор. Ключевые задачи в одном пакете: клонирование голоса, создание голоса и высококачественная генерация речи.

Семейство моделей и возможности
Qwen3-TTS использует токенизатор речи 12 Гц и предлагает два размера языковой модели — 0.6B и 1.7B. Пакеты включают пять моделей, которые поддерживают десять языков, включая китайский, английский, японский и русский. Модель VoiceDesign включает создание голоса на основе естественных языковых описаний.
Архитектура, токенизатор и потоковая передача
Система с двойной архитектурой предсказывает дискретные акустические токены и управляет сигналами выравнивания. Работая на 80 мс за токен с токенизатором 12.5 кадр/с, обеспечивает высокое качество и эффективность, достигая низкой задержки в потоковой передаче.
Выравнивание и контроль
Используя многоэтапный процесс выравнивания, Qwen3-TTS осуществляет тонкую настройку вариантов целевого голоса, сохраняя основные возможности общей модели. Поддерживает выполнение инструкций в формате ChatML.
Бенчмарки и многоязычные результаты
Модель демонстрирует передовые показатели на многоязычных наборах данных, достигая наименьшего показателя ошибок слов (WER) в шести из десяти протестированных языков. Также демонстрирует высокие результаты безобъектного клонирования голоса.
Ключевые выводы
- Открытое ПО: Лицензия Apache 2.0, покрывающая несколько задач в одном пакете.
- Потоковая передача в реальном времени: Эффективный токенизатор обеспечивает время первой команды менее 120 мс.
- Разнообразие моделей: Предлагает разнообразные функции от клонирования до индивидуального дизайна голоса.
- Высокое качество многоязычности: Постоянно высокая схожесть голосов и низкие показатели ошибок на нескольких языках.
Switch Language
Read this article in English