NVIDIA выпустила Parakeet TDT 0.6B: сверхбыстрая и точная модель распознавания речи с открытым исходным кодом

Прорыв в производительности распознавания речи

Компания NVIDIA представила Parakeet TDT 0.6B — современную модель автоматического распознавания речи (ASR) с 600 миллионами параметров. Модель доступна с открытым исходным кодом на платформе Hugging Face под коммерчески разрешительной лицензией CC-BY-4.0. Parakeet TDT 0.6B демонстрирует невероятный реальный коэффициент (RTF) 3386, что означает возможность транскрибировать час аудио всего за одну секунду — это более чем в 50 раз быстрее, чем многие существующие открытые ASR-модели.

Скорость и точность в одном решении

Модель достигает уровня ошибки слов (WER) всего 6,05% на таблице лидеров Hugging Face Open ASR, занимая первое место среди открытых моделей по точности транскрипции. Это делает её идеальной для корпоративных приложений, таких как транскрипция в реальном времени, голосовая аналитика, интеллектуальные системы для колл-центров и индексирование аудиоконтента.

Ключевые технические особенности

Parakeet TDT 0.6B построена на архитектуре трансформера с энкодером-декодером, дообучена на высококачественных данных транскрипции и оптимизирована для оборудования NVIDIA. Главные технические моменты:

Модель энкодер-декодер с 600 миллионами параметров
Квантованные и объединённые ядра для максимальной эффективности инференса
Оптимизация под архитектуру Transducer Decoder Transformer (TDT)
Поддержка точного форматирования временных меток, чисел и восстановления пунктуации
Редкая среди ASR моделей возможность транскрибировать песни в текст

Быстрый инференс обеспечивается технологиями NVIDIA TensorRT и FP8 квантованием.

Лидирующие позиции и готовность к внедрению

По состоянию на 5 мая 2025 года Parakeet TDT 0.6B возглавляет таблицу Hugging Face Open ASR с самой низкой ошибкой слов среди открытых моделей, превосходя OpenAI Whisper и другие решения сообщества. Это подтверждает её готовность к приложениям с чувствительной к задержкам работой.

Расширенные возможности транскрипции

Помимо скорости и точности, модель предлагает уникальные функции, повышающие качество и удобство использования транскриптов:

Транскрипция песен в текст: расширяет возможности индексирования музыки и медиа.
Форматирование чисел и временных меток: улучшает читаемость структурированных документов, таких как протоколы встреч и юридические тексты.
Восстановление пунктуации: обеспечивает более естественное чтение и лучше подходит для последующих NLP задач.

Эти функции существенно снижают необходимость в ручной доработке или постобработке, что особенно важно для корпоративного применения.

Стратегическое значение для NVIDIA и разработчиков AI

Выпуск Parakeet TDT 0.6B усиливает позиции NVIDIA как лидера в области AI-инфраструктуры, дополняя портфель фундаментальных моделей, таких как Nemotron для языка и BioNeMo для проектирования белков. Для сообщества разработчиков это открывает новые возможности для создания продвинутых голосовых интерфейсов в самых разных областях — от умных устройств до мультимодальных AI-агентов.

Как начать использовать Parakeet TDT 0.6B

Модель уже доступна на Hugging Face со всеми необходимыми компонентами: весами модели, токенизатором и скриптами для инференса. Она оптимально работает на GPU NVIDIA с TensorRT, но поддерживается и на CPU с некоторым снижением производительности. Это делает её привлекательной альтернативой коммерческим API для транскрипции, аннотирования аудиоданных и интеграции голоса в продукты.

Ознакомьтесь с моделью на Hugging Face и следите за обновлениями NVIDIA в Twitter.