NVIDIA запускает Llama Nemotron Nano VL: эффективная модель для комплексного анализа документов
NVIDIA выпустила Llama Nemotron Nano VL — компактную модель для комплексного понимания документов с эффективной мультимодальной обработкой и передовыми результатами точности.
Современная архитектура для понимания документов
Компания NVIDIA представила Llama Nemotron Nano VL — модель, объединяющую обработку визуальной и текстовой информации, оптимизированную для точного и эффективного понимания документов. Эта модель построена на базе языковой модели Llama 3.1 8B с инструкционной донастройкой и легкого визуального энкодера CRadioV2-H, что позволяет работать с многостраничными документами, содержащими как изображения, так и текст.
Эффективная мультимодальная обработка
Модель поддерживает эффективный вывод с контекстом до 16 тысяч токенов, что обеспечивает работу с длинными документами без потери качества. Визуальные и текстовые данные выравниваются посредством специальных проекционных слоев и ротационного позиционного кодирования, оптимизированного для фрагментов изображений, что позволяет обрабатывать несколько изображений вместе с текстом.
Методика обучения
Обучение проходило в три этапа:
- Этап 1: чередующееся предварительное обучение на смешанных данных изображений и текста из коммерческих наборов данных.
- Этап 2: мультимодальная инструкция для улучшения интерактивного взаимодействия.
- Этап 3: повторное смешивание текстовых инструкций для повышения производительности на стандартных языковых бенчмарках.
Обучение осуществлялось с использованием фреймворка Megatron-LLM и загрузчика Energon на кластерах с GPU A100 и H100.
Результаты тестирования
На бенчмарке OCRBench v2, предназначенном для оценки понимания документов на уровне OCR, анализа таблиц и диаграмм, Llama Nemotron Nano VL показала лучшее качество среди компактных моделей. Она сопоставима по результатам с более крупными решениями, особенно в задачах извлечения структурированных данных и ответов на вопросы, зависящие от расположения элементов. Модель также устойчива к документам на разных языках и низкому качеству сканов.
Развертывание и эффективность
Llama Nemotron Nano VL подходит как для серверного, так и для локального использования. NVIDIA предоставляет 4-битную квантизированную версию (AWQ), совместимую с TinyChat и TensorRT-LLM, что позволяет запускать модель на устройствах с ограниченными ресурсами, например Jetson Orin. Основные технические возможности:
- модульная поддержка NVIDIA Inference Microservice (NIM) для простой интеграции API
- экспорт в ONNX и TensorRT для аппаратного ускорения
- возможность предвычисления визуальных эмбеддингов для снижения задержек при работе со статичными изображениями
Практическое применение
Соединяя большие возможности по обработке контекста, высокую точность и эффективность развертывания, Llama Nemotron Nano VL подходит для автоматизированных систем вопросов и ответов по документам, интеллектуального OCR и извлечения информации из сложных документов.
Для подробностей и доступа к модели посетите страницу на Hugging Face. Следите за обновлениями NVIDIA AI в Twitter и присоединяйтесь к сообществу ML на Reddit и в рассылках.
Switch Language
Read this article in English