Nari Labs Представляет Dia: Открытая TTS-Модель с 1.6 Млрд Параметров для Реального Времени на Потребительских Устройствах
Nari Labs представила Dia — мощную открытую TTS-модель с 1.6 млрд параметров, способную к клонированию голоса и выразительному синтезу речи в реальном времени на обычных устройствах.
Продвинутая открытая модель преобразования текста в речь
Компания Nari Labs выпустила Dia — инновационную модель преобразования текста в речь с 1.6 миллиарда параметров, доступную под лицензией Apache 2.0. Этот релиз стал важным шагом вперёд для открытых систем синтеза речи, предлагая альтернативу коммерческим решениям, таким как ElevenLabs и Sesame.
Технические особенности и возможности
Dia использует архитектуру на базе трансформеров, которая обеспечивает баланс между выразительным моделированием просодии и вычислительной эффективностью. Одной из ключевых возможностей является zero-shot клонирование голоса, позволяющее воспроизводить голос говорящего по короткому аудиофрагменту без необходимости дополнительного обучения для каждого нового говорящего.
В отличие от многих стандартных TTS-систем, Dia умеет синтезировать невербальные вокализации, такие как кашель и смех. Эти элементы добавляют естественность и контекстуальное богатство в сгенерированную речь, повышая её реалистичность.
Модель оптимизирована для синтеза в реальном времени и может эффективно работать на потребительском оборудовании, включая MacBook. Это позволяет создавать речь с низкой задержкой без использования облачных GPU-серверов, что делает её доступной для разработчиков.
Открытая лицензия и простая интеграция
Благодаря лицензии Apache 2.0 Dia может свободно использоваться в коммерческих и академических целях с минимальными ограничениями. Вся цепочка обучения и инференса реализована на Python и легко интегрируется с популярными библиотеками для обработки аудио.
Весовые коэффициенты модели доступны на Hugging Face, где также есть подробные инструкции по настройке и примеры генерации аудио из текста и клонирования голоса. Модульная архитектура позволяет настраивать такие компоненты, как вокодеры, акустические модели и предварительную обработку входных данных.
Отзывы сообщества и качество работы
Хотя формальных бенчмарков пока немного, первые отзывы сообщества показывают, что Dia сопоставима или превосходит многие проприетарные TTS-системы по точности воспроизведения голоса, чистоте звука и выразительности. Поддержка невербальных звуков и открытый исходный код выделяют её на фоне конкурентов.
С момента релиза Dia быстро стала одной из популярных моделей на Hugging Face, что отражает высокий спрос на качественные, модифицируемые и локально запускаемые решения для синтеза речи.
Влияние на экосистему TTS
Выход Dia соответствует более широкой тенденции демократизации технологий синтеза речи. По мере расширения применения TTS — от инструментов доступности до игровых проектов — открытые качественные голосовые модели становятся всё более важными.
Сосредоточив внимание на удобстве использования, производительности и прозрачности, Nari Labs вносит значительный вклад в развитие исследований и разработок в области zero-shot моделирования голосов, мультиспикерного синтеза и генерации аудио в реальном времени.
Познакомьтесь с Dia
Разработчики и исследователи могут ознакомиться с Dia на Hugging Face, GitHub и попробовать живые демо. Рекомендуется присоединяться к сообществу в Twitter, Telegram и LinkedIn, чтобы быть в курсе обновлений.
Switch Language
Read this article in English