Nari Labs Представляет Dia: Открытая TTS-Модель с 1.6 Млрд Параметров для Реального Времени на Потребительских Устройствах

Продвинутая открытая модель преобразования текста в речь

Компания Nari Labs выпустила Dia — инновационную модель преобразования текста в речь с 1.6 миллиарда параметров, доступную под лицензией Apache 2.0. Этот релиз стал важным шагом вперёд для открытых систем синтеза речи, предлагая альтернативу коммерческим решениям, таким как ElevenLabs и Sesame.

Технические особенности и возможности

Dia использует архитектуру на базе трансформеров, которая обеспечивает баланс между выразительным моделированием просодии и вычислительной эффективностью. Одной из ключевых возможностей является zero-shot клонирование голоса, позволяющее воспроизводить голос говорящего по короткому аудиофрагменту без необходимости дополнительного обучения для каждого нового говорящего.

В отличие от многих стандартных TTS-систем, Dia умеет синтезировать невербальные вокализации, такие как кашель и смех. Эти элементы добавляют естественность и контекстуальное богатство в сгенерированную речь, повышая её реалистичность.

Модель оптимизирована для синтеза в реальном времени и может эффективно работать на потребительском оборудовании, включая MacBook. Это позволяет создавать речь с низкой задержкой без использования облачных GPU-серверов, что делает её доступной для разработчиков.

Открытая лицензия и простая интеграция

Благодаря лицензии Apache 2.0 Dia может свободно использоваться в коммерческих и академических целях с минимальными ограничениями. Вся цепочка обучения и инференса реализована на Python и легко интегрируется с популярными библиотеками для обработки аудио.

Весовые коэффициенты модели доступны на Hugging Face, где также есть подробные инструкции по настройке и примеры генерации аудио из текста и клонирования голоса. Модульная архитектура позволяет настраивать такие компоненты, как вокодеры, акустические модели и предварительную обработку входных данных.

Отзывы сообщества и качество работы

Хотя формальных бенчмарков пока немного, первые отзывы сообщества показывают, что Dia сопоставима или превосходит многие проприетарные TTS-системы по точности воспроизведения голоса, чистоте звука и выразительности. Поддержка невербальных звуков и открытый исходный код выделяют её на фоне конкурентов.

С момента релиза Dia быстро стала одной из популярных моделей на Hugging Face, что отражает высокий спрос на качественные, модифицируемые и локально запускаемые решения для синтеза речи.

Влияние на экосистему TTS

Выход Dia соответствует более широкой тенденции демократизации технологий синтеза речи. По мере расширения применения TTS — от инструментов доступности до игровых проектов — открытые качественные голосовые модели становятся всё более важными.

Сосредоточив внимание на удобстве использования, производительности и прозрачности, Nari Labs вносит значительный вклад в развитие исследований и разработок в области zero-shot моделирования голосов, мультиспикерного синтеза и генерации аудио в реальном времени.

Познакомьтесь с Dia

Разработчики и исследователи могут ознакомиться с Dia на Hugging Face, GitHub и попробовать живые демо. Рекомендуется присоединяться к сообществу в Twitter, Telegram и LinkedIn, чтобы быть в курсе обновлений.