<НА ГЛАВНУЮ

NVIDIA представила Granary: крупнейший открытый датасет речи Европы и быстрые ASR-модели

'NVIDIA представила Granary — миллион часов открытых аудиоданных для 25 европейских языков — и модели Canary-1b-v2 и Parakeet-tdt-0.6b-v3 для быстрого и точного распознавания и перевода речи.'

Granary: новая база для речевого ИИ Европы

NVIDIA анонсировала Granary — масштабный открытый корпус речи, созданный в сотрудничестве с Carnegie Mellon University и Fondazione Bruno Kessler. Коллекция составляет около миллиона часов аудио: примерно 650 000 часов для автоматического распознавания речи (ASR) и 350 000 часов для речевого перевода (AST). Granary охватывает 25 европейских языков, включая почти все официальные языки ЕС, а также русский и украинский, с приоритетом для языков с нехваткой аннотированных данных, таких как хорватский, эстонский и мальтийский.

Основные характеристики Granary:

  • крупнейший открытый датасет речи для 25 европейских языков;
  • псевдоразметка: публичные ненадписанные аудиоданные обрабатываются с помощью NVIDIA NeMo Speech Data Processor для структурирования и улучшения качества, что снижает потребность в ручной аннотации;
  • поддержка как задач транскрипции (ASR), так и перевода (AST);
  • открытый доступ для разработчиков, исследователей и компаний для обучения моделей в производственных масштабах.

Благодаря качественной предобработке и объему данных модели на Granary сходятся быстрее. NVIDIA указывает, что для достижения целевых точностей разработчикам требуется примерно вдвое меньше данных Granary по сравнению с конкурирующими датасетами, что особенно важно для языков с ограниченными ресурсами и для быстрого прототипирования.

Canary-1b-v2: компактная и точная мультизадачная модель

Canary-1b-v2 — это энкодер-декодер модель с одним миллиардом параметров, обученная на Granary. Она обеспечивает качественную транскрипцию и перевод между английским и 24 другими европейскими языками, существенно расширяя покрытие Canary.

Ключевые моменты:

  • поддержка 25 европейских языков;
  • высокая точность, сопоставимая с моделями в три раза больше по размеру, при скорости вывода до 10× выше;
  • мультизадачность: стабильная работа и для ASR, и для AST;
  • выходные данные с автоматической пунктуацией и капитализацией, с таймстампами на уровне слов и сегментов, включая таймштампированный перевод;
  • архитектура: FastConformer энкодер и Transformer декодер с единой словарной моделью SentencePiece для всех языков;
  • устойчивость к шуму и сниженное количество галлюцинаций в выводе.

В качестве показателей оценки NVIDIA приводит WER (ошибка слова) для ASR: 7.15% на AMI и 10.82% на LibriSpeech Clean, а также COMET для AST: 79.3 (X→English) и 84.56 (English→X). Canary-1b-v2 доступна под лицензией CC BY 4.0 и оптимизирована для ускорения на GPU NVIDIA, что облегчает обучение и вывод в производственных условиях.

Parakeet-tdt-0.6b-v3: ASR в режиме реального времени

Parakeet-tdt-0.6b-v3 — модель ASR с 600 миллионами параметров, ориентированная на быстрые и массовые транскрипции для всех 25 поддерживаемых языков. Она расширяет линейку Parakeet за пределы английского.

Особенности:

  • автоматическое определение языка для транскрипции без дополнительных подсказок;
  • реальное время: обработка сегментов до 24 минут в одном проходе инференса;
  • оптимизация под низкую задержку, пакетную обработку и точный вывод с таймштампами на уровне слов, пунктуацией и капитализацией;
  • устойчивость к сложному содержанию (цифры, тексты песен) и сложным акустическим условиям.

Почему это важно

Публикация Granary вместе с моделями Canary-1b-v2 и Parakeet-tdt-0.6b-v3 сильно снижает барьеры для создания многоязычных речевых приложений в Европе. Большой качественный датасет и эффективные модели позволяют разрабатывать инклюзивные системы: многоязычные чат-боты, голосовые сервисы для поддержки клиентов и сервисы почти в реальном времени для перевода.

Открытый доступ и оптимизация для продакшена дают возможность исследователям, стартапам и компаниям быстро прототипировать и масштабировать речевые решения, поддерживающие языковое разнообразие Европы.

Ресурсы

NVIDIA размещает Granary и модели с документацией, туториалами и ноутбуками на своей GitHub-странице. Релизы сопровождаются материалами в каналах NVIDIA и сообществах для удобного изучения и внедрения.

🇬🇧

Switch Language

Read this article in English

Switch to English