NVIDIA выпустила Parakeet TDT 0.6B: сверхбыстрая и точная модель распознавания речи с открытым исходным кодом
NVIDIA представила Parakeet TDT 0.6B — открытую модель ASR, которая транскрибирует час аудио за одну секунду и достигает лучших показателей точности, устанавливая новый стандарт в индустрии.
Прорыв в производительности распознавания речи
Компания NVIDIA представила Parakeet TDT 0.6B — современную модель автоматического распознавания речи (ASR) с 600 миллионами параметров. Модель доступна с открытым исходным кодом на платформе Hugging Face под коммерчески разрешительной лицензией CC-BY-4.0. Parakeet TDT 0.6B демонстрирует невероятный реальный коэффициент (RTF) 3386, что означает возможность транскрибировать час аудио всего за одну секунду — это более чем в 50 раз быстрее, чем многие существующие открытые ASR-модели.
Скорость и точность в одном решении
Модель достигает уровня ошибки слов (WER) всего 6,05% на таблице лидеров Hugging Face Open ASR, занимая первое место среди открытых моделей по точности транскрипции. Это делает её идеальной для корпоративных приложений, таких как транскрипция в реальном времени, голосовая аналитика, интеллектуальные системы для колл-центров и индексирование аудиоконтента.
Ключевые технические особенности
Parakeet TDT 0.6B построена на архитектуре трансформера с энкодером-декодером, дообучена на высококачественных данных транскрипции и оптимизирована для оборудования NVIDIA. Главные технические моменты:
- Модель энкодер-декодер с 600 миллионами параметров
- Квантованные и объединённые ядра для максимальной эффективности инференса
- Оптимизация под архитектуру Transducer Decoder Transformer (TDT)
- Поддержка точного форматирования временных меток, чисел и восстановления пунктуации
- Редкая среди ASR моделей возможность транскрибировать песни в текст
Быстрый инференс обеспечивается технологиями NVIDIA TensorRT и FP8 квантованием.
Лидирующие позиции и готовность к внедрению
По состоянию на 5 мая 2025 года Parakeet TDT 0.6B возглавляет таблицу Hugging Face Open ASR с самой низкой ошибкой слов среди открытых моделей, превосходя OpenAI Whisper и другие решения сообщества. Это подтверждает её готовность к приложениям с чувствительной к задержкам работой.
Расширенные возможности транскрипции
Помимо скорости и точности, модель предлагает уникальные функции, повышающие качество и удобство использования транскриптов:
- Транскрипция песен в текст: расширяет возможности индексирования музыки и медиа.
- Форматирование чисел и временных меток: улучшает читаемость структурированных документов, таких как протоколы встреч и юридические тексты.
- Восстановление пунктуации: обеспечивает более естественное чтение и лучше подходит для последующих NLP задач.
Эти функции существенно снижают необходимость в ручной доработке или постобработке, что особенно важно для корпоративного применения.
Стратегическое значение для NVIDIA и разработчиков AI
Выпуск Parakeet TDT 0.6B усиливает позиции NVIDIA как лидера в области AI-инфраструктуры, дополняя портфель фундаментальных моделей, таких как Nemotron для языка и BioNeMo для проектирования белков. Для сообщества разработчиков это открывает новые возможности для создания продвинутых голосовых интерфейсов в самых разных областях — от умных устройств до мультимодальных AI-агентов.
Как начать использовать Parakeet TDT 0.6B
Модель уже доступна на Hugging Face со всеми необходимыми компонентами: весами модели, токенизатором и скриптами для инференса. Она оптимально работает на GPU NVIDIA с TensorRT, но поддерживается и на CPU с некоторым снижением производительности. Это делает её привлекательной альтернативой коммерческим API для транскрипции, аннотирования аудиоданных и интеграции голоса в продукты.
Ознакомьтесь с моделью на Hugging Face и следите за обновлениями NVIDIA в Twitter.
Switch Language
Read this article in English