ViSMaP: Революция в суммировании часовых видео с помощью неаннотированного мета-промптинга

Проблемы суммирования длинных видео

Модели для создания подписей к видео обычно обучаются на коротких клипах длительностью до трёх минут с соответствующими подписями. Такие модели хорошо описывают простые действия, но испытывают трудности с часовыми видео, например, влогами, спортивными событиями и фильмами. Они часто создают фрагментированные описания, не отражая общую сюжетную линию. Попытки, такие как MA-LMM и LaViLa, расширяют возможности до 10-минутных клипов, но с часовыми видео проблема остаётся из-за нехватки больших аннотированных датасетов. Ego4D предлагает часовое видео, но с первого лица, что ограничивает универсальность. Video ReCap решает эту проблему обучением на аннотированных часовых видео, но это дорого и не всегда надёжно.

Развитие визуально-языковых моделей и ограниченность датасетов

Визуально-языковые модели, такие как CLIP, ALIGN, LLaVA и MiniGPT-4, значительно продвинули понимание изображений и видео, объединяя визуальные и языковые задачи. Однако нехватка больших аннотированных датасетов для длинных видео остаётся серьёзным препятствием. Задачи, как вопросно-ответные системы и создание подписей для коротких видео, требуют пространственного и временного понимания, тогда как суммирование часовых видео требует выделения ключевых кадров из большого объёма повторяющегося контента. Модели типа LongVA и LLaVA-Video справляются с вопросно-ответными задачами на длинных видео, но не с суммированием из-за нехватки данных.

Представляем ViSMaP: неаннотированный подход

Исследователи из Queen Mary University и Spotify предлагают ViSMaP — неаннотированный метод суммирования часовых видео без дорогой разметки. В отличие от традиционных моделей, работающих с короткими клипами, ViSMaP успешно справляется с длинным контентом, используя большие языковые модели (LLM) и стратегию мета-промптинга. Этот метод итеративно создаёт и улучшает псевдо-сводки, основываясь на описаниях коротких клипов. Система включает три LLM, работающих последовательно для генерации, оценки и оптимизации промптов.

Методология

ViSMaP начинается с обучения модели на 3-минутных видео с использованием признаков TimeSFormer, модуля визуально-языкового выравнивания и текстового декодера, оптимизированных с помощью кросс-энтропии и контрастного обучения. Длинные видео разбиваются на 3-минутные клипы, для которых генерируются псевдо-подписи. Итеративный мета-промптинг с генератором, оценщиком и оптимизатором LLM улучшает сводки. Затем модель дообучается на псевдо-сводках с использованием симметричной кросс-энтропии для работы с шумными метками и лучшей адаптации.

Оценка и результаты

ViSMaP протестировали в трёх сценариях: суммирование длинных видео с Ego4D-HCap, кросс-доменная генерализация на MSRVTT, MSVD и YouCook2, а также адаптация к коротким видео с EgoSchema. В сравнении с контролируемыми и zero-shot методами, такими как Video ReCap и LaViLa+GPT3.5, ViSMaP показал сопоставимые или лучшие результаты без использования аннотаций. Оценка проводилась с помощью метрик CIDEr, ROUGE-L, METEOR и точности QA. Абляционные исследования подтвердили эффективность мета-промптинга, контрастного обучения и симметричной кросс-энтропии. В реализации использовались TimeSFormer, DistilBERT и GPT-2, обучение проходило на NVIDIA A100.

Перспективы развития

Несмотря на успехи, ViSMaP зависит от псевдометок из исходной доменной модели, что может снижать качество при сильных доменных сдвигах. Сейчас метод использует только визуальные данные; в будущем планируется интеграция мультимодальных данных, иерархическое суммирование и более универсальные методы мета-промптинга для повышения устойчивости и универсальности.