NVIDIA представляет Canary-Qwen-2.5B: ведущая гибридная модель ASR-LLM с непревзойденной точностью и скоростью

Прорыв в распознавании речи и языковом моделировании

NVIDIA выпустила Canary-Qwen-2.5B — инновационную гибридную модель, объединяющую автоматическое распознавание речи (ASR) и большие языковые модели (LLM). Сейчас она занимает первое место в рейтинге OpenASR на Hugging Face с рекордно низким уровнем ошибок распознавания (WER) — 5,63%. Модель лицензирована по CC-BY, является открытой и разрешает коммерческое использование без ограничений.

Унифицированная архитектура для транскрипции и понимания языка

Суть модели Canary-Qwen-2.5B — гибридная архитектура, которая объединяет транскрипцию и понимание языка в одном решении. В ней используется FastConformer энкодер, оптимизированный для низкой задержки и высокой точности распознавания речи, в сочетании с декодером Qwen3-1.7B — большой языковой моделью без изменений, которая через адаптеры принимает токены, преобразованные из аудио. Это обеспечивает мультимодальную гибкость и удобство использования.

Высокая производительность и скорость

Модель достигает WER 5,63%, превосходя все предыдущие решения на OpenASR, при этом имеет относительно умеренный размер в 2,5 миллиарда параметров. Ее Real-Time Factor (RTFx) равен 418, что означает обработку аудио в 418 раз быстрее реального времени — важная особенность для масштабных транскрипций и систем живых субтитров.

Обширный обучающий датасет и гибкость

Обучение проводилось на 234 000 часов разноплановой английской речи с различными акцентами и стилями, что обеспечивает высокую устойчивость модели к шуму и специфике разных доменов. Модель построена на базе фреймворка NVIDIA NeMo, позволяющего исследователям менять компоненты (энкодеры, декодеры) без необходимости полного переобучения.

Широкая поддержка оборудования и варианты развертывания

Canary-Qwen-2.5B оптимизирована под широкий спектр GPU NVIDIA: от дата-центровых A100 и H100 до рабочих станций и потребительских видеокарт, таких как RTX PRO 6000 и GeForce RTX 5090. Это позволяет использовать модель как в облаке, так и на локальных устройствах.

Готовность к коммерческому использованию и варианты применения

Модель распространяется по лицензии CC-BY, что допускает коммерческое использование в таких сферах, как корпоративные сервисы транскрипции, автоматическое суммирование встреч в реальном времени, голосовые AI-ассистенты и документация с соблюдением нормативных требований в медицине, юриспруденции и финансах. Интегрированное LLM-декодирование улучшает пунктуацию, капитализацию и контекст, что особенно важно для чувствительных отраслей.

Открытые инновации и перспективы развития

Открытый исходный код и обучающие рецепты стимулируют сообщество к развитию и экспериментам. Интеграция LLM как активных компонентов в ASR-пайплайне отражает тенденцию к созданию интеллектуальных систем, способных к глубокому мультимодальному пониманию и принятию решений.

Ознакомьтесь с моделью и рейтингом на Hugging Face, чтобы оценить возможности этой передовой технологии распознавания речи.