Eagle 2.5 от NVIDIA: компактная модель для понимания видео с длинным контекстом на уровне GPT-4o
NVIDIA представила Eagle 2.5 — компактную модель с 8 миллиардами параметров, которая сопоставима с крупными моделями GPT-4o в задачах понимания длинных видео благодаря инновационному обучению и специальному набору данных.
Прорыв в понимании мультимодальных данных с длинным контекстом
Модели, работающие с изображениями и текстом, сильно продвинулись, но часто испытывают трудности с обработкой длинных последовательностей, например, высокоразрешённых изображений или продолжительных видео. Традиционные модели теряют смысловые детали, плохо используют память и снижают качество при увеличении длины контекста.
Представляем Eagle 2.5: эффективная и универсальная модель
Модель Eagle 2.5 от NVIDIA специально разработана для работы с длинным контекстом. Она успешно обрабатывает как видео, так и изображения, достигая результатов, сопоставимых с гораздо более крупными моделями (Qwen2.5-VL-72B, InternVL2.5-78B) при всего 8 миллиардах параметров, особенно на видео с 512 кадрами.
Инновационные методы обучения
Eagle 2.5 использует две ключевые стратегии обучения:
-
Information-First Sampling: Приоритет сохранения важного визуального и семантического контента с помощью Image Area Preservation (IAP), сохраняющего более 60% площади изображения без искажения, и Automatic Degradation Sampling (ADS), динамически балансирующего визуальные и текстовые данные.
-
Прогрессивное дополнительное обучение: Пошагенное увеличение окна контекста с 32K до 128K токенов для стабильной работы на разных длинах без переобучения.
Архитектура построена на SigLIP для кодирования изображений и MLP слоях для согласования с языковой моделью, без специализированных сжимающих модулей.
Eagle-Video-110K: обширный набор данных для понимания длинных видео
Важной частью является набор данных Eagle-Video-110K, включающий открытые и собственные источники с двойной схемой аннотаций:
- Сверху вниз: сегментация историй с помощью человеко-аннотированных глав и GPT-4, создающего плотные подписи и вопросы с ответами.
- Снизу вверх: генерация вопросов и ответов для коротких клипов с привязкой по времени и тексту GPT-4o.
Набор данных отобран с помощью косинусного сходства из источников InternVid, Shot2Story и VidChapters, обеспечивая разнообразие и связность.
Высокие результаты на бенчмарках
Eagle 2.5-8B показывает отличные результаты: 74.8 на MVBench, 77.6 на MLVU, 66.4 на LongVideoBench, а также на DocVQA, ChartQA и InfoVQA. Исследования подтверждают важность методов выборки и прогрессивного обучения, а также существенное влияние набора Eagle-Video-110K на задачи с большим количеством кадров.
Новый подход к моделям для мультимодального понимания
Eagle 2.5 демонстрирует, что продуманные стратегии обучения и работы с данными позволяют создавать эффективные модели без необходимости масштабирования параметров. Это важный шаг к созданию AI систем с глубоким контекстным пониманием для реальных мультимедийных задач.
Подробнее читайте в статье, на GitHub и проектной странице NVIDIA, а также следите за сообществом в Twitter, Telegram и LinkedIn.
Switch Language
Read this article in English