NVIDIA запускает Llama Nemotron Nano VL: эффективная модель для комплексного анализа документов

Современная архитектура для понимания документов

Компания NVIDIA представила Llama Nemotron Nano VL — модель, объединяющую обработку визуальной и текстовой информации, оптимизированную для точного и эффективного понимания документов. Эта модель построена на базе языковой модели Llama 3.1 8B с инструкционной донастройкой и легкого визуального энкодера CRadioV2-H, что позволяет работать с многостраничными документами, содержащими как изображения, так и текст.

Эффективная мультимодальная обработка

Модель поддерживает эффективный вывод с контекстом до 16 тысяч токенов, что обеспечивает работу с длинными документами без потери качества. Визуальные и текстовые данные выравниваются посредством специальных проекционных слоев и ротационного позиционного кодирования, оптимизированного для фрагментов изображений, что позволяет обрабатывать несколько изображений вместе с текстом.

Методика обучения

Обучение проходило в три этапа:

Этап 1: чередующееся предварительное обучение на смешанных данных изображений и текста из коммерческих наборов данных.
Этап 2: мультимодальная инструкция для улучшения интерактивного взаимодействия.
Этап 3: повторное смешивание текстовых инструкций для повышения производительности на стандартных языковых бенчмарках.

Обучение осуществлялось с использованием фреймворка Megatron-LLM и загрузчика Energon на кластерах с GPU A100 и H100.

Результаты тестирования

На бенчмарке OCRBench v2, предназначенном для оценки понимания документов на уровне OCR, анализа таблиц и диаграмм, Llama Nemotron Nano VL показала лучшее качество среди компактных моделей. Она сопоставима по результатам с более крупными решениями, особенно в задачах извлечения структурированных данных и ответов на вопросы, зависящие от расположения элементов. Модель также устойчива к документам на разных языках и низкому качеству сканов.

Развертывание и эффективность

Llama Nemotron Nano VL подходит как для серверного, так и для локального использования. NVIDIA предоставляет 4-битную квантизированную версию (AWQ), совместимую с TinyChat и TensorRT-LLM, что позволяет запускать модель на устройствах с ограниченными ресурсами, например Jetson Orin. Основные технические возможности:

модульная поддержка NVIDIA Inference Microservice (NIM) для простой интеграции API
экспорт в ONNX и TensorRT для аппаратного ускорения
возможность предвычисления визуальных эмбеддингов для снижения задержек при работе со статичными изображениями

Практическое применение

Соединяя большие возможности по обработке контекста, высокую точность и эффективность развертывания, Llama Nemotron Nano VL подходит для автоматизированных систем вопросов и ответов по документам, интеллектуального OCR и извлечения информации из сложных документов.

Для подробностей и доступа к модели посетите страницу на Hugging Face. Следите за обновлениями NVIDIA AI в Twitter и присоединяйтесь к сообществу ML на Reddit и в рассылках.