Rime запускает Arcana и Rimecaster: открытые голосовые AI-модели на базе реальной речи
Rime представила Arcana и Rimecaster — открытые голосовые AI-модели, обученные на естественной речи для повышения реалистичности и гибкости голосовых приложений.
Развитие голосового AI с моделями, отражающими реальную речь
Область голосового AI развивается в сторону систем, лучше отражающих естественную человеческую речь. В отличие от многих моделей, обученных на студийном аудио, Rime создаёт базовые голосовые модели, основанные на реальных разговорах.
Arcana: анализ того, как произносится речь
Arcana — универсальная модель синтеза речи (TTS), оптимизированная для извлечения семантических, просодических и выразительных характеристик речи. В отличие от моделей, определяющих, кто говорит, Arcana анализирует, как именно сказано — ритм, подачу и эмоциональный окрас.
Возможности Arcana включают:
- Голосовые агенты для бизнеса (IVR, поддержка, исходящие звонки)
- Выразительный синтез речи для творческих задач
- Диалоговые системы с учётом особенностей говорящего
Обученная на разнообразных разговорах, записанных в естественных условиях, Arcana хорошо работает с разными акцентами, языками и в шумной среде. Она также улавливает мелкие детали речи — дыхание, смех, оговорки, что помогает системам обрабатывать голос так, как это делает человек.
Rimecaster: естественное представление говорящего
Rimecaster — открытая модель для представления говорящего, созданная для поддержки обучения моделей, таких как Arcana и Mist v2. Она выходит за рамки сценарных аудиоданных, используя многоязычные, двунаправленные разговоры с обычными людьми.
Это позволяет учитывать вариативность живой речи: сомнения, смену акцентов, наложение реплик. Технически Rimecaster преобразует голос в векторные эмбеддинги, отражающие тон, высоту, ритм и стиль речи, что полезно для верификации говорящего, адаптации голоса и выразительного синтеза речи.
Основные особенности Rimecaster:
- Обучение на больших наборах данных естественных разговоров на разных языках
- Архитектура на базе NVIDIA Titanet, создающая эмбеддинги в 4 раза плотнее для точной идентификации
- Интеграция с Hugging Face и NVIDIA NeMo
- Открытая лицензия CC-by-4.0 для совместной разработки
Модульность, реализм и готовность к внедрению
Подход Rime ориентирован на реализм, разнообразие данных и модульную архитектуру. Вместо монолитных моделей предлагается набор компонентов, легко адаптируемых под разные задачи.
Arcana и Mist v2 рассчитаны на работу в реальном времени, поддерживают потоковую обработку и низкую задержку, совместимы с системами conversational AI и телефонией. Они повышают естественность синтезируемой речи и позволяют персонализировать диалоговые агенты без серьёзных изменений инфраструктуры.
Например, Arcana помогает синтезировать речь с сохранением тона и ритма говорящего в многоязычных службах поддержки.
Модели Rime — важный шаг к голосовым системам, отражающим сложность и разнообразие человеческой речи, что способствует созданию более доступных и контекстно-чувствительных технологий.
Switch Language
Read this article in English