Qwen3-ASR Flash: единая модель Alibaba для многоязычного и шумоустойчивого распознавания речи

сентября 9, 2025 · 3 min

Qwen3-ASR Flash: что это предлагает

Команда Qwen от Alibaba Cloud представила Qwen3-ASR Flash, универсальную модель автоматического распознавания речи, доступную как API-сервис. Построенная на базе Qwen3-Omni, модель упрощает транскрипцию многоязычных, шумных и специализированных аудиопотоков без необходимости использовать несколько отдельных систем.

Основные возможности

Многоязычное распознавание: автоматическое определение языка и транскрипция для 11 языков, включая английский, китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский, португальский и русский. Это позволяет развертывать одну модель для глобальных сценариев.
Механизм контекстной подстройки: пользователь может вставить произвольный текст — имена, профессиональный жаргон или новые выражения — чтобы сместить вероятность транскрипции в сторону ожидаемой лексики. Это удобно при работе с именами собственными, идиомами и отраслевой терминологией.
Устойчивость к плохому звуку: модель сохраняет качество в условиях фонового шума, низкого качества записи, записи с дальних микрофонов и при разного рода вокале, включая песни и рэп. Сообщаемый средний WER держится ниже 8% в разнообразных условиях.
Простой эксплуатационный подход: одна объединенная модель устраняет необходимость поддерживать разные модели для языков или контекстов аудио.

Техническая оценка

Определение языка и транскрипция

Автоматическое определение языка позволяет модели выбрать язык перед транскрипцией, что важно для смешанных языковых сцен и пассивного захвата аудио. Это уменьшает потребность в ручном выборе языка и упрощает работу приложений с разнообразными входами.

Внедрение контекста

Поддержка вставки контекстного текста смещает распознавание в сторону ожидаемой лексики. Технически это может работать как префиксная подстройка или префикс-инъекция, при которой контекст включается в поток ввода и влияет на декодирование без необходимости дообучения модели.

WER в реальных условиях

Удержание WER ниже 8% в музыке, рэпе, шумной среде и при низкокачественных записях ставит Qwen3-ASR в число сильных открытых систем распознавания. Для сравнения, лучшие модели на чистой зачитанной речи достигают 3–5% WER, но их качество обычно сильно падает в шумных или музыкальных условиях. Qwen3-ASR сокращает этот разрыв.

Многоязычная подготовка и моделирование

Поддержка 11 языков, включая логографический китайский и языки с разными фонетическими системами, такими как арабский и японский, указывает на объемные мультилингвальные данные и способность к кросс-лингвальному моделированию. Обработка тональных языков вроде мандаринского наряду с нетональными языками требует тщательной работы с акустикой и лингвистикой.

Эксплуатационная простота

Развертывание единой модели для различных языков и условий аудио снижает операционные издержки. Нет необходимости динамически переключать модели: все проходит через единый ASR-пайплайн с встроенным определением языка и опцией контекстной подстройки.

Развертывание и демонстрация

Qwen3-ASR доступен как API-сервис и имеет демо на Hugging Face Spaces, где можно загрузить аудио, добавить контекстный текст и выбрать язык либо воспользоваться автоопределением. Команда предоставляет документацию по API, технические детали и примеры на GitHub и в других ресурсах.

Для команд, которые ищут простое в развертывании решение с поддержкой нескольких языков, контекстной подстройкой и устойчивостью к шуму, Qwen3-ASR Flash выглядит как интересный вариант. Дополнительные материалы и демо доступны по ссылке: https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list