<НА ГЛАВНУЮ

Rime запускает Arcana и Rimecaster: открытые голосовые AI-модели на базе реальной речи

Rime представила Arcana и Rimecaster — открытые голосовые AI-модели, обученные на естественной речи для повышения реалистичности и гибкости голосовых приложений.

Развитие голосового AI с моделями, отражающими реальную речь

Область голосового AI развивается в сторону систем, лучше отражающих естественную человеческую речь. В отличие от многих моделей, обученных на студийном аудио, Rime создаёт базовые голосовые модели, основанные на реальных разговорах.

Arcana: анализ того, как произносится речь

Arcana — универсальная модель синтеза речи (TTS), оптимизированная для извлечения семантических, просодических и выразительных характеристик речи. В отличие от моделей, определяющих, кто говорит, Arcana анализирует, как именно сказано — ритм, подачу и эмоциональный окрас.

Возможности Arcana включают:

  • Голосовые агенты для бизнеса (IVR, поддержка, исходящие звонки)
  • Выразительный синтез речи для творческих задач
  • Диалоговые системы с учётом особенностей говорящего

Обученная на разнообразных разговорах, записанных в естественных условиях, Arcana хорошо работает с разными акцентами, языками и в шумной среде. Она также улавливает мелкие детали речи — дыхание, смех, оговорки, что помогает системам обрабатывать голос так, как это делает человек.

Rimecaster: естественное представление говорящего

Rimecaster — открытая модель для представления говорящего, созданная для поддержки обучения моделей, таких как Arcana и Mist v2. Она выходит за рамки сценарных аудиоданных, используя многоязычные, двунаправленные разговоры с обычными людьми.

Это позволяет учитывать вариативность живой речи: сомнения, смену акцентов, наложение реплик. Технически Rimecaster преобразует голос в векторные эмбеддинги, отражающие тон, высоту, ритм и стиль речи, что полезно для верификации говорящего, адаптации голоса и выразительного синтеза речи.

Основные особенности Rimecaster:

  • Обучение на больших наборах данных естественных разговоров на разных языках
  • Архитектура на базе NVIDIA Titanet, создающая эмбеддинги в 4 раза плотнее для точной идентификации
  • Интеграция с Hugging Face и NVIDIA NeMo
  • Открытая лицензия CC-by-4.0 для совместной разработки

Модульность, реализм и готовность к внедрению

Подход Rime ориентирован на реализм, разнообразие данных и модульную архитектуру. Вместо монолитных моделей предлагается набор компонентов, легко адаптируемых под разные задачи.

Arcana и Mist v2 рассчитаны на работу в реальном времени, поддерживают потоковую обработку и низкую задержку, совместимы с системами conversational AI и телефонией. Они повышают естественность синтезируемой речи и позволяют персонализировать диалоговые агенты без серьёзных изменений инфраструктуры.

Например, Arcana помогает синтезировать речь с сохранением тона и ритма говорящего в многоязычных службах поддержки.

Модели Rime — важный шаг к голосовым системам, отражающим сложность и разнообразие человеческой речи, что способствует созданию более доступных и контекстно-чувствительных технологий.

🇬🇧

Switch Language

Read this article in English

Switch to English