Munsit от CNTXT AI: новый стандарт точности распознавания арабской речи, превосходящий мировых лидеров

Представляем Munsit: прорыв в распознавании арабской речи

Компания CNTXT AI представила Munsit — инновационную систему распознавания арабской речи, которая превзошла таких гигантов, как OpenAI, Meta, Microsoft и ElevenLabs. Разработанная в ОАЭ и ориентированная на арабский язык, Munsit воплощает концепцию «суверенного ИИ» — технологии, созданной в регионе и конкурирующей на мировом уровне.

Решение проблемы дефицита данных для арабского языка

Распознавание арабской речи долгое время страдало из-за сложности языка и нехватки размеченных данных. CNTXT AI использовала слабоконтролируемое обучение, обработав более 30 тысяч часов неразмеченного аудио. Специальная конвейерная система очистки и автоматической разметки создала качественный тренировочный набор объемом 15 тысяч часов без участия человека.

Инновационный процесс обработки и разметки данных

Разработана многоступенчатая система генерации, оценки и фильтрации транскрипций. Гипотезы сравнивались с помощью расстояния Левенштейна и проверялись на грамматическую корректность языковой моделью. Низкокачественные сегменты отбрасывались, что обеспечивало надежность данных. Итерационный процесс повышал точность разметки.

Архитектура Conformer в основе Munsit

Munsit построена на архитектуре Conformer, сочетающей сверточные слои и трансформеры для эффективного анализа речи. Модель включает 18 слоев, около 121 миллиона параметров и обрабатывает 80-канальные мел-спектрограммы. Обучение проводилось на восьми GPU NVIDIA A100 с точностью bfloat16. Для токенизации арабской морфологии использовался SentencePiece с 1024 субсловами.

Обучение на слабых метках

В отличие от традиционного обучения с точной разметкой, Munsit обучалась на слабых метках, оптимизированных через обратную связь с акцентом на консенсус, грамматику и лексику. Использовалась функция потерь CTC, подходящая для нерегулярных последовательностей речи.

Лидерство на бенчмарках

Munsit протестирована на шести наборах данных, охватывающих более 25 диалектов. Модель показала средний уровень ошибок по словам (WER) 26.68 и по символам (CER) 10.05, значительно превосходя OpenAI Whisper (WER 36.86, CER 17.21) и Meta SeamlessM4T. Также обошла Microsoft Azure, ElevenLabs Scribe и GPT-4o, улучшив метрики более чем на 23% по WER и почти на 25% по CER.

Будущее арабских голосовых технологий

CNTXT AI планирует расширять функциональность, включая синтез речи, голосовые ассистенты и системы перевода в реальном времени, основанные на региональных технологиях и суверенной инфраструктуре. Генеральный директор Мохаммад Абу Шейх отметил, что Munsit доказывает возможность создания мирового класса ИИ для арабского языка локально.

Этот запуск знаменует важный этап для арабского ИИ, объединяющий культурные и языковые особенности с передовыми технологиями.