Chatterbox Multilingual: открытая zero-shot TTS модель с управлением эмоциями и встраиваемой водяной меткой

Обзор

Resemble AI представила Chatterbox Multilingual — открытую production grade текст в речь модель, которая поддерживает zero-shot клонирование голоса на 23 языках. Выпущенная под лицензией MIT, она расширяет оригинальную систему Chatterbox многоязычными возможностями, выразительными контролями и встроенной PerTh водяной меткой для отслеживания происхождения аудио.

Многоязычное zero-shot клонирование

Chatterbox Multilingual позволяет клонировать голос без дообучения модели. Достаточно короткого референсного аудиосэмпла, чтобы захватить характеристики говорящего и сгенерировать синтетическую речь с похожими голосовыми признаками. Поддерживаемые языки включают арабский, хинди, китайский, свахили и другие, что обеспечивает широкое покрытие языковых семей.

Контроль выразительности и интенсивности

Модель предоставляет инструменты для управления стилем подачи. Доступны категории эмоций такие как счастливый, грустный или злой, а также параметр exaggeration для регулировки интенсивности. Благодаря этому клон голоса можно сделать более живым, сдержанным или драматичным в зависимости от контекста, что полезно для интерактивных медиа, диалоговых агентов, игр и вспомогательных технологий.

Водяная метка и проверяемость

Каждый сгенерированный файл содержит PerTh водяную метку — нейронную технику, разработанную Resemble AI. Метка не слышна слушателю, но может быть извлечена с помощью предоставленного открытого детектора. Встраивание метки по умолчанию обеспечивает проверяемость и трассируемость синтетического контента и помогает снижать риски злоупотреблений.

Сравнение с коммерческими решениями

В слепых A/B тестах на Podonos слушатели показали 63.75% предпочтение Chatterbox над ElevenLabs в проверяемых условиях. Хотя некоторые заявления о производительности касаются отдельных языков, таких как немецкий, единственным верифицируемым публичным показателем остается результат слушательского предпочтения на Podonos. В целом доступные оценки указывают на конкурентоспособность модели по отношению к многим коммерческим TTS решениям.

Развертывание и коммерческая версия

Открытый релиз предоставляет базовую систему, которую исследователи, разработчики и энтузиасты могут установить и использовать под MIT лицензией. Для сценариев с высокой нагрузкой, низкой задержкой и требованиями соответствия Resemble AI предлагает Chatterbox Multilingual Pro — управляемую облачную версию с задержкой менее 200 мс, тонко настроенными голосами, SLA и дополнительными функциями для корпоративных развертываний.

Значение открытого релиза

Chatterbox Multilingual добавляет в сообщество синтеза речи контролируемую и многоязычную систему клонирования голоса. Комбинация zero-shot клонирования, управления выразительностью и обязательного водяного маркирования в открытом пакете по лицензии MIT создаёт удобную платформу для дальнейших исследований и практических применений.

Ресурсы

Официальная страница: https://www.resemble.ai/chatterbox/

Посетите GitHub Page для туториалов, примеров и ноутбуков. Присоединяйтесь к сообществам и подписывайтесь на обновления.