Joey Conway из NVIDIA раскрывает инновации в открытых ИИ-моделях Llama Nemotron Ultra и Parakeet

Инновации NVIDIA в области открытого ИИ

Joey Conway из NVIDIA рассказал о последних достижениях компании в открытых больших языковых моделях, включая Llama Nemotron Ultra и Parakeet TDT. Эти модели обеспечивают передовое качество работы при возможности запуска на распространённом оборудовании.

Llama Nemotron Ultra: компактность и мощь

Модель Llama Nemotron Ultra с 253 миллиардами параметров показывает результаты, сопоставимые с моделями в два раза больше, такими как Llama 405B. Благодаря инновационной технике FFN fusion, оптимизирующей слои feed-forward сети, модель работает эффективно на одном узле с 8 GPU NVIDIA H100. Эта технология ускоряет вычисления в 3–5 раз и снижает требования к памяти, что позволяет обрабатывать более длинные контексты.

Особенность модели — возможность включать и выключать детальное рассуждение («reasoning on/off») для каждого запроса. Это дает компаниям контроль над задержками и стоимостью, сохраняя высокую точность при необходимости. Модель отлично справляется как с задачами рассуждения, так и с выполнением инструкций, объединяя ранее раздельные функции.

Кураторство данных и контроль качества

NVIDIA открыто предоставляет подготовленные наборы данных с около 30 миллионами пар вопросов и ответов на Hugging Face. Для создания синтетических данных используются экспертные модели сообщества, после чего применяется многоуровневая проверка качества: автоматическое оценивание, ручная экспертиза и обеспечение разнообразия. Такой подход гарантирует высокое качество данных для обучения с учителем и обучения с подкреплением, улучшая навыки рассуждения, вызова инструментов и общения.

Обучение с подкреплением и непрерывное улучшение

После этапа обучения с учителем NVIDIA начала применять обучение с подкреплением для повышения точности моделей. Автоматизированные циклы обратной связи оценивают ответы по таким направлениям, как научное рассуждение и следование инструкциям, что позволяет модели непрерывно совершенствоваться.

Parakeet TDT: революция в распознавании речи

Parakeet TDT — модель автоматического распознавания речи, способная транскрибировать час аудио за одну секунду с ошибкой слов всего 6%, что в 50 раз быстрее аналогов с открытым исходным кодом. Она базируется на архитектуре Fast Conformer с оптимизациями: глубинной раздельной сверточной субдискретизацией, ограниченным вниманием, скользящим окном и инновационным Token and Duration Transducer (TDT).

TDT позволяет предсказывать длительность токенов, пропуская избыточные фреймы и ускоряя процесс в 1,5–2 раза. Дополнительные техники, как алгоритм label looping и декодирование с CUDA-графами, обеспечивают дальнейшее ускорение. NVIDIA планирует расширять линейку Parakeet, увеличивать поддержку языков и внедрять возможности потоковой обработки в реальном времени.

Приверженность открытости и планы на будущее

Все модели, данные и сопутствующее ПО доступны на Hugging Face, NGC и GitHub. NVIDIA стремится предоставить сообществу современные, эффективные и готовые к производственному использованию ИИ-модели. В будущем планируется развитие мультиязычности, создание моделей с меньшим размером для периферийных устройств и улучшение технологий потоковой транскрипции с балансом точности, скорости и стоимости.