FILTER MODE ACTIVE

#ASR

Найдено записей: 14

#ASR22.01.2026

Microsoft представила VibeVoice-ASR для звука длинной формы

VibeVoice-ASR предлагает унифицированную модель распознавания речи для обработки 60-минутной аудиозаписи.

ЧИТАТЬ →

#ASR20.01.2026

Дизайн полностью стримингового голосового агента

Создайте голосового агента с низкой задержкой, используя стриминг ASR, LLM и TTS.

ЧИТАТЬ →

#ASR07.01.2026

NVIDIA представила Nemotron ASR для низкой задержки

Изучите новую модель Nemotron Speech ASR от NVIDIA, разработанную для голосовых агентов и живой субтитровки с низкой задержкой.

ЧИТАТЬ →

#ASR05.10.2025

Оценка голосовых ассистентов в 2025: от WER к задаче-успеху, перехватам и галлюцинациям под шумом

'Руководство по комплексной оценке голосовых ассистентов: выход за пределы WER к метрикам успеха задач, перехватам, галлюцинациям под шумом и перцептуальному качеству.'

ЧИТАТЬ →

#ASR01.10.2025

Liquid AI выпустила LFM2-Audio-1.5B: энд-то-энд аудио‑модель с задержкой менее 100 мс

'Liquid AI представила LFM2-Audio-1.5B — компактную энд-то-энд аудио‑языковую модель, демонстрирующую задержку менее 100 мс и поддержку ASR, TTS и разговорных агентов.'

ЧИТАТЬ →

#ASR17.09.2025

Создайте голосового AI-ассистента в реальном времени с Hugging Face (Whisper + FLAN-T5 + Bark)

'Узнайте, как собрать голосового ассистента на Whisper (ASR), FLAN-T5 (LLM) и Bark (TTS) с простым Gradio-интерфейсом в Colab.'

ЧИТАТЬ →

#ASR10.09.2025

Улучшение речи и ASR с помощью SpeechBrain: сборка пайплайна для денойзинга и распознавания в Python

Практическое руководство по сборке пайплайна с SpeechBrain: генерация речи, добавление шума, улучшение с MetricGAN+ и сравнение WER до и после обработки

ЧИТАТЬ →

#ASR09.09.2025

Qwen3-ASR Flash: единая модель Alibaba для многоязычного и шумоустойчивого распознавания речи

'Qwen3-ASR Flash — единая модель Alibaba для автоматического распознавания речи на 11 языках, поддерживающая вставку контекста и показывающая WER ниже 8% в шумных и музыкальных условиях.'

ЧИТАТЬ →

#ASR01.09.2025

StepFun AI представила Step-Audio 2 Mini — открытая 8B модель речи, обгоняющая GPT-4o-Audio

'Step-Audio 2 Mini — открытая 8B модель от StepFun AI с единой токенизацией аудио и текста, эмоциональной генерацией и RAG, опережающая GPT-4o-Audio по ключевым бенчмаркам.'

ЧИТАТЬ →

#ASR23.08.2025

Голосовые агенты: как работают и 9 платформ, которые стоит знать в 2025

'Узнайте, как работают голосовые агенты на базе ИИ, какие компоненты важны и какие 9 платформ лидируют в 2025 году.'

ЧИТАТЬ →

#ASR16.08.2025

NVIDIA представила Granary: крупнейший открытый датасет речи Европы и быстрые ASR-модели

'NVIDIA представила Granary — миллион часов открытых аудиоданных для 25 европейских языков — и модели Canary-1b-v2 и Parakeet-tdt-0.6b-v3 для быстрого и точного распознавания и перевода речи.'

ЧИТАТЬ →

#ASR17.07.2025

NVIDIA представляет Canary-Qwen-2.5B: ведущая гибридная модель ASR-LLM с непревзойденной точностью и скоростью

Модель Canary-Qwen-2.5B от NVIDIA устанавливает новый рекорд точности распознавания речи и обеспечивает высокую скорость обработки. Открытая и лицензированная для коммерческого использования, она объединяет транскрипцию и понимание языка в одном решении.

ЧИТАТЬ →

#ASR17.07.2025

Mistral AI представляет Voxtral: лучшие открытые модели распознавания речи с продвинутым пониманием аудио

Mistral AI выпустила Voxtral — современные открытые модели распознавания речи, объединяющие транскрипцию и понимание языка с поддержкой длинного аудиоконтекста и нескольких языков.

ЧИТАТЬ →

#ASR06.05.2025

NVIDIA выпустила Parakeet TDT 0.6B: сверхбыстрая и точная модель распознавания речи с открытым исходным кодом

NVIDIA представила Parakeet TDT 0.6B — открытую модель ASR, которая транскрибирует час аудио за одну секунду и достигает лучших показателей точности, устанавливая новый стандарт в индустрии.

ЧИТАТЬ →