Chatterbox Multilingual: открытая zero-shot TTS модель с управлением эмоциями и встраиваемой водяной меткой
Обзор
Resemble AI представила Chatterbox Multilingual — открытую production grade текст в речь модель, которая поддерживает zero-shot клонирование голоса на 23 языках. Выпущенная под лицензией MIT, она расширяет оригинальную систему Chatterbox многоязычными возможностями, выразительными контролями и встроенной PerTh водяной меткой для отслеживания происхождения аудио.
Многоязычное zero-shot клонирование
Chatterbox Multilingual позволяет клонировать голос без дообучения модели. Достаточно короткого референсного аудиосэмпла, чтобы захватить характеристики говорящего и сгенерировать синтетическую речь с похожими голосовыми признаками. Поддерживаемые языки включают арабский, хинди, китайский, свахили и другие, что обеспечивает широкое покрытие языковых семей.
Контроль выразительности и интенсивности
Модель предоставляет инструменты для управления стилем подачи. Доступны категории эмоций такие как счастливый, грустный или злой, а также параметр exaggeration для регулировки интенсивности. Благодаря этому клон голоса можно сделать более живым, сдержанным или драматичным в зависимости от контекста, что полезно для интерактивных медиа, диалоговых агентов, игр и вспомогательных технологий.
Водяная метка и проверяемость
Каждый сгенерированный файл содержит PerTh водяную метку — нейронную технику, разработанную Resemble AI. Метка не слышна слушателю, но может быть извлечена с помощью предоставленного открытого детектора. Встраивание метки по умолчанию обеспечивает проверяемость и трассируемость синтетического контента и помогает снижать риски злоупотреблений.
Сравнение с коммерческими решениями
В слепых A/B тестах на Podonos слушатели показали 63.75% предпочтение Chatterbox над ElevenLabs в проверяемых условиях. Хотя некоторые заявления о производительности касаются отдельных языков, таких как немецкий, единственным верифицируемым публичным показателем остается результат слушательского предпочтения на Podonos. В целом доступные оценки указывают на конкурентоспособность модели по отношению к многим коммерческим TTS решениям.
Развертывание и коммерческая версия
Открытый релиз предоставляет базовую систему, которую исследователи, разработчики и энтузиасты могут установить и использовать под MIT лицензией. Для сценариев с высокой нагрузкой, низкой задержкой и требованиями соответствия Resemble AI предлагает Chatterbox Multilingual Pro — управляемую облачную версию с задержкой менее 200 мс, тонко настроенными голосами, SLA и дополнительными функциями для корпоративных развертываний.
Значение открытого релиза
Chatterbox Multilingual добавляет в сообщество синтеза речи контролируемую и многоязычную систему клонирования голоса. Комбинация zero-shot клонирования, управления выразительностью и обязательного водяного маркирования в открытом пакете по лицензии MIT создаёт удобную платформу для дальнейших исследований и практических применений.
Ресурсы
Официальная страница: https://www.resemble.ai/chatterbox/
Посетите GitHub Page для туториалов, примеров и ноутбуков. Присоединяйтесь к сообществам и подписывайтесь на обновления.