Kyutai представила стриминговую TTS-модель на 2 млрд параметров с задержкой 220 мс и обучением на 2,5 млн часов
Kyutai представила инновационную стриминговую TTS-модель с 2 миллиардами параметров и задержкой 220 мс, обученную на 2,5 миллиона часов аудио. Модель поддерживает одновременную работу с несколькими пользователями и подходит для реального времени.
Прорыв в технологии стримингового синтеза речи
Исследовательская лаборатория Kyutai выпустила передовую стриминговую модель преобразования текста в речь (TTS) с примерно 2 миллиардами параметров. Модель создана для работы в реальном времени и обеспечивает сверхнизкую задержку в 220 миллисекунд при высоком качестве звука. Она обучена на огромном наборе данных, включающем 2,5 миллиона часов аудио, что значительно повышает эффективность и доступность генерации речи.
Высокая производительность при работе с несколькими пользователями
Модель выделяется своими стриминговыми возможностями — она способна обслуживать до 32 одновременных пользователей на одной видеокарте NVIDIA L40 с задержкой менее 350 миллисекунд. Для одного пользователя задержка составляет всего 220 миллисекунд, что позволяет использовать модель в таких сценариях, как голосовые ассистенты, разговорные агенты и живые озвучки. Это стало возможным благодаря инновационному подходу Kyutai — Delayed Streams Modeling, который позволяет формировать речь по мере поступления текста.
Технические характеристики
- Размер модели: около 2 миллиардов параметров
- Объем обучающих данных: 2,5 миллиона часов аудио
- Задержка: 220 мс для одного пользователя, менее 350 мс для 32 пользователей на одной L40
- Поддержка языков: английский и французский
- Лицензия: CC-BY-4.0 (открытый исходный код)
Delayed Streams Modeling: обеспечение реакции в реальном времени
Уникальная технология Delayed Streams Modeling позволяет начать синтез речи до того, как полный текст будет полностью получен. Это обеспечивает баланс между качеством предсказаний и скоростью отклика, позволяя создавать эффективный стриминговый TTS, который превосходит традиционные авторегрессивные модели по задержке и временнóй согласованности.
Открытость и поддержка сообщества
Весь исходный код и рецепты обучения доступны на GitHub Kyutai, что способствует воспроизводимости и сотрудничеству сообщества. Весовые коэффициенты модели и скрипты для вывода размещены на Hugging Face под лицензией CC-BY-4.0, позволяющей свободное использование с указанием авторства.
Применение и влияние
Сокращение задержки генерации речи до примерно 200 мс значительно улучшает пользовательский опыт в различных областях:
- Разговорный искусственный интеллект для более естественного голосового взаимодействия
- Помогающие технологии, включая ускоренные экранные чтецы
- Медиа-производство с быстрым циклом озвучивания
- Пограничные вычислительные устройства с оптимизацией для локального вывода
Возможность обслуживать сразу 32 пользователя на одной GPU также выгодна для масштабируемых облачных сервисов синтеза речи.
Готовность к внедрению
Стриминговая TTS-модель Kyutai выделяется как открытое, быстрое и универсальное решение для исследователей и разработчиков, нуждающихся в качественном синтезе речи в реальном времени. Многоязычная поддержка и масштабируемая производительность делают её привлекательной альтернативой проприетарным технологиям.
Для получения дополнительной информации посетите страницы Kyutai на GitHub и Hugging Face, а также ознакомьтесь с официальной документацией модели.
Switch Language
Read this article in English