Kyutai представила стриминговую TTS-модель на 2 млрд параметров с задержкой 220 мс и обучением на 2,5 млн часов

Прорыв в технологии стримингового синтеза речи

Исследовательская лаборатория Kyutai выпустила передовую стриминговую модель преобразования текста в речь (TTS) с примерно 2 миллиардами параметров. Модель создана для работы в реальном времени и обеспечивает сверхнизкую задержку в 220 миллисекунд при высоком качестве звука. Она обучена на огромном наборе данных, включающем 2,5 миллиона часов аудио, что значительно повышает эффективность и доступность генерации речи.

Высокая производительность при работе с несколькими пользователями

Модель выделяется своими стриминговыми возможностями — она способна обслуживать до 32 одновременных пользователей на одной видеокарте NVIDIA L40 с задержкой менее 350 миллисекунд. Для одного пользователя задержка составляет всего 220 миллисекунд, что позволяет использовать модель в таких сценариях, как голосовые ассистенты, разговорные агенты и живые озвучки. Это стало возможным благодаря инновационному подходу Kyutai — Delayed Streams Modeling, который позволяет формировать речь по мере поступления текста.

Технические характеристики

Размер модели: около 2 миллиардов параметров
Объем обучающих данных: 2,5 миллиона часов аудио
Задержка: 220 мс для одного пользователя, менее 350 мс для 32 пользователей на одной L40
Поддержка языков: английский и французский
Лицензия: CC-BY-4.0 (открытый исходный код)

Delayed Streams Modeling: обеспечение реакции в реальном времени

Уникальная технология Delayed Streams Modeling позволяет начать синтез речи до того, как полный текст будет полностью получен. Это обеспечивает баланс между качеством предсказаний и скоростью отклика, позволяя создавать эффективный стриминговый TTS, который превосходит традиционные авторегрессивные модели по задержке и временнóй согласованности.

Открытость и поддержка сообщества

Весь исходный код и рецепты обучения доступны на GitHub Kyutai, что способствует воспроизводимости и сотрудничеству сообщества. Весовые коэффициенты модели и скрипты для вывода размещены на Hugging Face под лицензией CC-BY-4.0, позволяющей свободное использование с указанием авторства.

Применение и влияние

Сокращение задержки генерации речи до примерно 200 мс значительно улучшает пользовательский опыт в различных областях:

Разговорный искусственный интеллект для более естественного голосового взаимодействия
Помогающие технологии, включая ускоренные экранные чтецы
Медиа-производство с быстрым циклом озвучивания
Пограничные вычислительные устройства с оптимизацией для локального вывода

Возможность обслуживать сразу 32 пользователя на одной GPU также выгодна для масштабируемых облачных сервисов синтеза речи.

Готовность к внедрению

Стриминговая TTS-модель Kyutai выделяется как открытое, быстрое и универсальное решение для исследователей и разработчиков, нуждающихся в качественном синтезе речи в реальном времени. Многоязычная поддержка и масштабируемая производительность делают её привлекательной альтернативой проприетарным технологиям.

Для получения дополнительной информации посетите страницы Kyutai на GitHub и Hugging Face, а также ознакомьтесь с официальной документацией модели.