Microsoft представила VibeVoice-ASR для звука длинной формы
VibeVoice-ASR предлагает унифицированную модель распознавания речи для обработки 60-минутной аудиозаписи.
Найдено записей: 14
VibeVoice-ASR предлагает унифицированную модель распознавания речи для обработки 60-минутной аудиозаписи.
Создайте голосового агента с низкой задержкой, используя стриминг ASR, LLM и TTS.
Изучите новую модель Nemotron Speech ASR от NVIDIA, разработанную для голосовых агентов и живой субтитровки с низкой задержкой.
'Руководство по комплексной оценке голосовых ассистентов: выход за пределы WER к метрикам успеха задач, перехватам, галлюцинациям под шумом и перцептуальному качеству.'
'Liquid AI представила LFM2-Audio-1.5B — компактную энд-то-энд аудио‑языковую модель, демонстрирующую задержку менее 100 мс и поддержку ASR, TTS и разговорных агентов.'
'Узнайте, как собрать голосового ассистента на Whisper (ASR), FLAN-T5 (LLM) и Bark (TTS) с простым Gradio-интерфейсом в Colab.'
Практическое руководство по сборке пайплайна с SpeechBrain: генерация речи, добавление шума, улучшение с MetricGAN+ и сравнение WER до и после обработки
'Qwen3-ASR Flash — единая модель Alibaba для автоматического распознавания речи на 11 языках, поддерживающая вставку контекста и показывающая WER ниже 8% в шумных и музыкальных условиях.'
'Step-Audio 2 Mini — открытая 8B модель от StepFun AI с единой токенизацией аудио и текста, эмоциональной генерацией и RAG, опережающая GPT-4o-Audio по ключевым бенчмаркам.'
'Узнайте, как работают голосовые агенты на базе ИИ, какие компоненты важны и какие 9 платформ лидируют в 2025 году.'
'NVIDIA представила Granary — миллион часов открытых аудиоданных для 25 европейских языков — и модели Canary-1b-v2 и Parakeet-tdt-0.6b-v3 для быстрого и точного распознавания и перевода речи.'
Модель Canary-Qwen-2.5B от NVIDIA устанавливает новый рекорд точности распознавания речи и обеспечивает высокую скорость обработки. Открытая и лицензированная для коммерческого использования, она объединяет транскрипцию и понимание языка в одном решении.
Mistral AI выпустила Voxtral — современные открытые модели распознавания речи, объединяющие транскрипцию и понимание языка с поддержкой длинного аудиоконтекста и нескольких языков.
NVIDIA представила Parakeet TDT 0.6B — открытую модель ASR, которая транскрибирует час аудио за одну секунду и достигает лучших показателей точности, устанавливая новый стандарт в индустрии.