NVIDIA представляет Canary-Qwen-2.5B: ведущая гибридная модель ASR-LLM с непревзойденной точностью и скоростью
Модель Canary-Qwen-2.5B от NVIDIA устанавливает новый рекорд точности распознавания речи и обеспечивает высокую скорость обработки. Открытая и лицензированная для коммерческого использования, она объединяет транскрипцию и понимание языка в одном решении.
Прорыв в распознавании речи и языковом моделировании
NVIDIA выпустила Canary-Qwen-2.5B — инновационную гибридную модель, объединяющую автоматическое распознавание речи (ASR) и большие языковые модели (LLM). Сейчас она занимает первое место в рейтинге OpenASR на Hugging Face с рекордно низким уровнем ошибок распознавания (WER) — 5,63%. Модель лицензирована по CC-BY, является открытой и разрешает коммерческое использование без ограничений.
Унифицированная архитектура для транскрипции и понимания языка
Суть модели Canary-Qwen-2.5B — гибридная архитектура, которая объединяет транскрипцию и понимание языка в одном решении. В ней используется FastConformer энкодер, оптимизированный для низкой задержки и высокой точности распознавания речи, в сочетании с декодером Qwen3-1.7B — большой языковой моделью без изменений, которая через адаптеры принимает токены, преобразованные из аудио. Это обеспечивает мультимодальную гибкость и удобство использования.
Высокая производительность и скорость
Модель достигает WER 5,63%, превосходя все предыдущие решения на OpenASR, при этом имеет относительно умеренный размер в 2,5 миллиарда параметров. Ее Real-Time Factor (RTFx) равен 418, что означает обработку аудио в 418 раз быстрее реального времени — важная особенность для масштабных транскрипций и систем живых субтитров.
Обширный обучающий датасет и гибкость
Обучение проводилось на 234 000 часов разноплановой английской речи с различными акцентами и стилями, что обеспечивает высокую устойчивость модели к шуму и специфике разных доменов. Модель построена на базе фреймворка NVIDIA NeMo, позволяющего исследователям менять компоненты (энкодеры, декодеры) без необходимости полного переобучения.
Широкая поддержка оборудования и варианты развертывания
Canary-Qwen-2.5B оптимизирована под широкий спектр GPU NVIDIA: от дата-центровых A100 и H100 до рабочих станций и потребительских видеокарт, таких как RTX PRO 6000 и GeForce RTX 5090. Это позволяет использовать модель как в облаке, так и на локальных устройствах.
Готовность к коммерческому использованию и варианты применения
Модель распространяется по лицензии CC-BY, что допускает коммерческое использование в таких сферах, как корпоративные сервисы транскрипции, автоматическое суммирование встреч в реальном времени, голосовые AI-ассистенты и документация с соблюдением нормативных требований в медицине, юриспруденции и финансах. Интегрированное LLM-декодирование улучшает пунктуацию, капитализацию и контекст, что особенно важно для чувствительных отраслей.
Открытые инновации и перспективы развития
Открытый исходный код и обучающие рецепты стимулируют сообщество к развитию и экспериментам. Интеграция LLM как активных компонентов в ASR-пайплайне отражает тенденцию к созданию интеллектуальных систем, способных к глубокому мультимодальному пониманию и принятию решений.
Ознакомьтесь с моделью и рейтингом на Hugging Face, чтобы оценить возможности этой передовой технологии распознавания речи.
Switch Language
Read this article in English