GPT-4o Видит Текст, Но Видит ли Он Ясно? Исследование Многоформатных Моделей в Задачах Компьютерного Зрения

Прогресс и проблемы многоформатных моделей

Многоформатные фундаментальные модели (МФМ), такие как GPT-4o, Gemini и Claude, быстро развиваются и демонстрируют успехи в публичных демо. Их языковые навыки хорошо изучены, но способности к восприятию визуальной информации остаются неясными. Современные бенчмарки в основном ориентированы на задачи с текстовым выводом, например, визуальные вопросы-ответы (VQA) или классификацию, что часто отражает языковые возможности больше, чем визуальные. Важные аспекты визуального понимания, такие как 3D-восприятие, сегментация и группировка, часто остаются вне внимания.

Оценка визуальных навыков вне текстовых задач

МФМ показывают хорошие результаты в задачах, сочетающих визуальное и языковое понимание, таких как генерация подписей и VQA. Однако их эффективность в задачах, требующих детального анализа визуальной информации, остаётся под вопросом. Поскольку эти модели обычно дают текстовый ответ и доступны через API, справедливо сравнивать их с узкоспециализированными моделями зрения сложно. Некоторые исследования пытаются адаптировать визуальные датасеты, переводя аннотации в текст, но это ограничивает оценку языковым выводом. Также исследуются стратегии подсказок, которые разбивают сложные визуальные задачи на более простые языковые подзадачи, но воспроизводимость таких подходов не всегда стабильна.

Исследование EPFL: оценка МФМ на ключевых задачах компьютерного зрения

Учёные из EPFL протестировали популярные МФМ — GPT-4o, Gemini 2.0 Flash, Claude 3.5 Sonnet — на основных задачах компьютерного зрения, таких как сегментация, обнаружение объектов и предсказание глубины, используя датасеты COCO и ImageNet. Так как большинство МФМ ориентированы на текстовый вывод, была разработана система цепочек подсказок, которая преобразует визуальные задачи в текстовые форматы. Результаты показали, что МФМ — это хорошие универсалы, но уступают специализированным моделям, особенно в геометрических задачах. GPT-4o выделился, заняв первое место в 4 из 6 задач. Инструментарий оценки будет открыт для сообщества.

Стратегия цепочек подсказок для разбиения визуальных задач

В исследовании предложен метод разбиения сложных визуальных задач на более простые языковые подзадачи с помощью цепочек подсказок. Например, вместо прямого предсказания ограничивающих рамок модель сначала определяет объекты, а затем локализует их, рекурсивно обрезая изображение. Для сегментации и группировки изображение делится на суперпиксели, что облегчает маркировку и сравнение. Глубина и нормали поверхности оцениваются через попарные ранжирования регионов суперпикселей. Модульный подход использует сильные стороны МФМ в классификации и сравнении, а калибровка обеспечивает честные сравнения. Производительность улучшается при более детальных подсказках.

Сравнение производительности и ограничения

Оценка охватила несколько МФМ и задачи, включая классификацию изображений, обнаружение объектов и сегментацию, с использованием ImageNet, COCO и Hypersim. GPT-4o достиг точности 77.2% на ImageNet и 60.62 AP50 для обнаружения объектов, тогда как специализированные модели ViT-G и Co-DETR превзошли 90%. По семантической сегментации GPT-4o набрал 44.89 mIoU, уступая OneFormer с 65.52. МФМ неплохо справляются с изменениями распределений данных, но отстают в точном визуальном рассуждении. В исследовании также использовались оракульные базовые линии для оценки верхнего предела возможностей.

Основные выводы и перспективы

Разработанная система оценки предоставляет единый подход к проверке визуального понимания МФМ, переводя задачи зрения в формат подсказок. МФМ лучше справляются с семантическими задачами, чем с геометрическими, при этом GPT-4o демонстрирует лучшие результаты среди них. Несмотря на отставание от специализированных моделей, МФМ показывают перспективы, особенно новые модели рассуждения, такие как o3, в 3D-задачах. Существуют вызовы, включая высокую стоимость вывода и чувствительность к подсказкам. Эта работа закладывает основу для будущих улучшений в области многоформатного зрения.

Для дополнительной информации ознакомьтесь с [статьёй], [GitHub-страницей] и [проектом] оригинальных исследователей.