<НА ГЛАВНУЮ

MMLONGBENCH: Новый стандарт оценки долгоконтекстных моделей с визуально-языковым пониманием

Исследователи представили MMLONGBENCH — первый комплексный бенчмарк для оценки долгоконтекстных визуально-языковых моделей, выявляющий ключевые особенности и проблемы в их работе.

Прогресс в моделировании с долгим контекстом для визуально-языковых моделей

Последние достижения в области моделирования с долгим контекстом (LC) значительно расширили возможности больших языковых моделей (LLM) и больших визуально-языковых моделей (LVLM). Долгоконтекстные визуально-языковые модели (LCVLM) позволяют обрабатывать сотни изображений и тысячи перемежающихся текстовых токенов за один проход, что является важным шагом вперед. Тем не менее, развитие эффективных бенчмарков для оценки этих моделей отстает.

Ограничения существующих бенчмарков

Существующие бенчмарки имеют несколько недостатков: ограниченный охват задач, узкий спектр типов изображений, отсутствие контроля длины входного контекста и проверка при одной фиксированной длине. Техники, такие как более длительное предварительное обучение, экстраполяция позиций и эффективные архитектуры, расширили окна контекста LVLM. Модели Gemini-2.5 и Qwen2.5-VL используют эти подходы вместе с методами сжатия токенов изображений для поддержки длинных последовательностей. Тем не менее, оценка ограничивается задачами Needle-in-a-Haystack и долгими документальными VQA, что не позволяет полноценно оценить возможности LC в разных сценариях.

Введение MMLONGBENCH

Группа исследователей из HKUST, Tencent AI Seattle Lab, Университета Эдинбурга, Miniml.AI и NVIDIA AI Technology Center создала MMLONGBENCH — первый комплексный бенчмарк для оценки LCVLM. Он содержит 13 331 примеров, охватывающих пять категорий задач, включая Visual Retrieval-Augmented Generation (RAG) и Many-Shot In-Context Learning (ICL), а также естественные и синтетические изображения.

Все задачи стандартизированы по пяти длинам входных данных от 8K до 128K токенов с помощью кросс-модальной токенизации, объединяющей визуальные патчи и текстовые токены. Такой подход обеспечивает строгую проверку возможностей моделей работать с длинным контекстом.

Методология оценки

Для формирования долгого контекста среди большого числа отвлекающих отрывков из Википедии вставляются «золотые» отрывки с ответами. В ViQuAE используются золотые отрывки из KILT, а в InfoSeek — вступительные разделы страниц Википедии. Страницы Википедии разбиваются на отрывки по 100 слов, и к ним добавляются отвлекающие, чтобы достичь заданной длины.

Задачи Many-shot In-Context Learning используют четыре различных датасета классификации изображений: Stanford Cars, Food101, SUN397 и iNat2021, размещая 500 изображений в контексте до 128K токенов. Подсчет токенов кросс-модально объединяет текстовые токены, обработанные токенизатором Llama2, с визуальными токенами, полученными из патчей 14×14 и сжатых методом 2×2 pixel unshuffle, что обеспечивает совместимость с современными LVLM.

Результаты тестирования

Оценка 46 закрытых и открытых моделей показывает значительные трудности. Производительность на отдельных задачах плохо предсказывает общие возможности работы с долгим контекстом. Закрытые модели в целом выступают лучше открытых. При длине входа 128K токенов все модели испытывают сложности: GPT-4o достигает среднего результата 62,9. Gemini-2.5-Pro становится лидером, опережая открытые модели на 20 баллов, за исключением задач ICL. Модель Ovis2-34B и GPT-4o показывают сопоставимые результаты по суммаризации, а Qwen2.5-VL-32B достигает наивысшего SubEM на Visual RAG, превосходя Gemini-2.0-Flash. Некоторые модели успешно обобщают на длины контекста, превышающие обучающие: Qwen2-VL-72B показывает 51,9 при 128K, хотя обучался на 32K.

Влияние и перспективы

MMLONGBENCH создает строгую рамку оценки с разнообразием задач, единым подсчетом токенов и контролируемыми длинами контекста. Он выявляет проблемы передовых моделей, особенно в точности OCR и кросс-модальном поиске, а также ограниченность оценки LC по отдельным задачам.

Этот бенчмарк стимулирует исследования в области эффективного кодирования токенов, надежной экстраполяции позиций и улучшенного мульти-модального поиска и рассуждений, направляя развитие более мощных долгоконтекстных визуально-языковых моделей.

Для подробностей смотрите статью и GitHub. Следите за проектом в Twitter и присоединяйтесь к сообществам ML SubReddit и Newsletter.

🇬🇧

Switch Language

Read this article in English

Switch to English