Eagle 2.5 от NVIDIA: компактная модель для понимания видео с длинным контекстом на уровне GPT-4o

Прорыв в понимании мультимодальных данных с длинным контекстом

Модели, работающие с изображениями и текстом, сильно продвинулись, но часто испытывают трудности с обработкой длинных последовательностей, например, высокоразрешённых изображений или продолжительных видео. Традиционные модели теряют смысловые детали, плохо используют память и снижают качество при увеличении длины контекста.

Представляем Eagle 2.5: эффективная и универсальная модель

Модель Eagle 2.5 от NVIDIA специально разработана для работы с длинным контекстом. Она успешно обрабатывает как видео, так и изображения, достигая результатов, сопоставимых с гораздо более крупными моделями (Qwen2.5-VL-72B, InternVL2.5-78B) при всего 8 миллиардах параметров, особенно на видео с 512 кадрами.

Инновационные методы обучения

Eagle 2.5 использует две ключевые стратегии обучения:

Information-First Sampling: Приоритет сохранения важного визуального и семантического контента с помощью Image Area Preservation (IAP), сохраняющего более 60% площади изображения без искажения, и Automatic Degradation Sampling (ADS), динамически балансирующего визуальные и текстовые данные.
Прогрессивное дополнительное обучение: Пошагенное увеличение окна контекста с 32K до 128K токенов для стабильной работы на разных длинах без переобучения.

Архитектура построена на SigLIP для кодирования изображений и MLP слоях для согласования с языковой моделью, без специализированных сжимающих модулей.

Eagle-Video-110K: обширный набор данных для понимания длинных видео

Важной частью является набор данных Eagle-Video-110K, включающий открытые и собственные источники с двойной схемой аннотаций:

Сверху вниз: сегментация историй с помощью человеко-аннотированных глав и GPT-4, создающего плотные подписи и вопросы с ответами.
Снизу вверх: генерация вопросов и ответов для коротких клипов с привязкой по времени и тексту GPT-4o.

Набор данных отобран с помощью косинусного сходства из источников InternVid, Shot2Story и VidChapters, обеспечивая разнообразие и связность.

Высокие результаты на бенчмарках

Eagle 2.5-8B показывает отличные результаты: 74.8 на MVBench, 77.6 на MLVU, 66.4 на LongVideoBench, а также на DocVQA, ChartQA и InfoVQA. Исследования подтверждают важность методов выборки и прогрессивного обучения, а также существенное влияние набора Eagle-Video-110K на задачи с большим количеством кадров.

Новый подход к моделям для мультимодального понимания

Eagle 2.5 демонстрирует, что продуманные стратегии обучения и работы с данными позволяют создавать эффективные модели без необходимости масштабирования параметров. Это важный шаг к созданию AI систем с глубоким контекстным пониманием для реальных мультимедийных задач.

Подробнее читайте в статье, на GitHub и проектной странице NVIDIA, а также следите за сообществом в Twitter, Telegram и LinkedIn.