<НА ГЛАВНУЮ

Kyutai представила стриминговую TTS-модель на 2 млрд параметров с задержкой 220 мс и обучением на 2,5 млн часов

Kyutai представила инновационную стриминговую TTS-модель с 2 миллиардами параметров и задержкой 220 мс, обученную на 2,5 миллиона часов аудио. Модель поддерживает одновременную работу с несколькими пользователями и подходит для реального времени.

Прорыв в технологии стримингового синтеза речи

Исследовательская лаборатория Kyutai выпустила передовую стриминговую модель преобразования текста в речь (TTS) с примерно 2 миллиардами параметров. Модель создана для работы в реальном времени и обеспечивает сверхнизкую задержку в 220 миллисекунд при высоком качестве звука. Она обучена на огромном наборе данных, включающем 2,5 миллиона часов аудио, что значительно повышает эффективность и доступность генерации речи.

Высокая производительность при работе с несколькими пользователями

Модель выделяется своими стриминговыми возможностями — она способна обслуживать до 32 одновременных пользователей на одной видеокарте NVIDIA L40 с задержкой менее 350 миллисекунд. Для одного пользователя задержка составляет всего 220 миллисекунд, что позволяет использовать модель в таких сценариях, как голосовые ассистенты, разговорные агенты и живые озвучки. Это стало возможным благодаря инновационному подходу Kyutai — Delayed Streams Modeling, который позволяет формировать речь по мере поступления текста.

Технические характеристики

  • Размер модели: около 2 миллиардов параметров
  • Объем обучающих данных: 2,5 миллиона часов аудио
  • Задержка: 220 мс для одного пользователя, менее 350 мс для 32 пользователей на одной L40
  • Поддержка языков: английский и французский
  • Лицензия: CC-BY-4.0 (открытый исходный код)

Delayed Streams Modeling: обеспечение реакции в реальном времени

Уникальная технология Delayed Streams Modeling позволяет начать синтез речи до того, как полный текст будет полностью получен. Это обеспечивает баланс между качеством предсказаний и скоростью отклика, позволяя создавать эффективный стриминговый TTS, который превосходит традиционные авторегрессивные модели по задержке и временнóй согласованности.

Открытость и поддержка сообщества

Весь исходный код и рецепты обучения доступны на GitHub Kyutai, что способствует воспроизводимости и сотрудничеству сообщества. Весовые коэффициенты модели и скрипты для вывода размещены на Hugging Face под лицензией CC-BY-4.0, позволяющей свободное использование с указанием авторства.

Применение и влияние

Сокращение задержки генерации речи до примерно 200 мс значительно улучшает пользовательский опыт в различных областях:

  • Разговорный искусственный интеллект для более естественного голосового взаимодействия
  • Помогающие технологии, включая ускоренные экранные чтецы
  • Медиа-производство с быстрым циклом озвучивания
  • Пограничные вычислительные устройства с оптимизацией для локального вывода

Возможность обслуживать сразу 32 пользователя на одной GPU также выгодна для масштабируемых облачных сервисов синтеза речи.

Готовность к внедрению

Стриминговая TTS-модель Kyutai выделяется как открытое, быстрое и универсальное решение для исследователей и разработчиков, нуждающихся в качественном синтезе речи в реальном времени. Многоязычная поддержка и масштабируемая производительность делают её привлекательной альтернативой проприетарным технологиям.

Для получения дополнительной информации посетите страницы Kyutai на GitHub и Hugging Face, а также ознакомьтесь с официальной документацией модели.

🇬🇧

Switch Language

Read this article in English

Switch to English