Исследователи Apple представляют StreamBridge для реального времени в Video-LLMs

Проблемы потокового видео в Video-LLMs

Традиционные Video-LLMs обрабатывают целые предварительно записанные видео за один раз, что ограничивает их применение в задачах, требующих понимания в реальном времени, таких как робототехника и автономное вождение. В этих сценариях необходима причинно-следственная и непрерывная обработка визуальной информации с быстрой реакцией. Основные задачи включают поддержание многоэтапного понимания в реальном времени, обрабатывая последние сегменты видео вместе с историческим контекстом, а также обеспечение проактивной генерации ответов, когда модель реагирует на визуальный поток без явных команд.

Новые подходы к потоковому видео

Современные решения, такие как VideoLLMOnline, Flash-VStream, MMDuet и ViSpeak, предлагают специализированные цели и архитектуры памяти для последовательной обработки данных и проактивных ответов. Для оценки возможностей потокового видео используются бенчмарки StreamingBench, StreamBench, SVBench, OmniMMI и OVO-Bench.

Представление фреймворка StreamBridge

Исследователи из Apple и Университета Фудань разработали StreamBridge — систему для преобразования оффлайн Video-LLMs в модели, работающие в потоковом режиме. StreamBridge решает задачи многоэтапного понимания в реальном времени с помощью буфера памяти и стратегии сжатия с затухающим раундом, что позволяет работать с длинным контекстом. Также включена облегчённая активационная модель, интегрирующаяся с существующими Video-LLMs и обеспечивающая проактивные ответы.

Параллельно был создан датасет Stream-IT с разнообразными видео-текстовыми последовательностями и форматами инструкций, специально для потокового видеоанализа.

Оценка и результаты

StreamBridge протестировали на популярных оффлайн Video-LLMs: LLaVA-OV-7B, Qwen2-VL-7B и Oryx-1.5-7B. Датасет Stream-IT дополнили около 600 тысячами примеров из LLaVA-178K, VCG-Plus и ShareGPT4Video для сохранения общих возможностей видеоанализа.

Оценка на задачах многоэтапного понимания в реальном времени с использованием OVO-Bench и StreamingBench показала значительный рост результатов, особенно у Qwen2-VL после дообучения на Stream-IT. Oryx-1.5 также показал хорошие улучшения. LLaVA-OV сначала немного снизился, но после дообучения улучшился. В итоге Qwen2-VL превзошёл даже проприетарные модели GPT-4o и Gemini 1.5 Pro, демонстрируя эффективность StreamBridge.

Значение и перспективы

StreamBridge предлагает универсальное решение для превращения статичных оффлайн Video-LLMs в динамичные, отзывчивые модели, способные работать в постоянно меняющихся визуальных условиях. Это особенно важно для реальных приложений в робототехнике и автономном вождении, где своевременное и проактивное понимание видео критично.