Meta AI представляет Multi-SpatialMLLM: Продвинутое многофреймовое пространственное понимание для мультимодальных языковых моделей

Проблемы пространственного мышления в мультимодальных языковых моделях

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса как универсальные AI-ассистенты, способные выполнять разнообразные визуальные задачи. Однако их использование в виде изолированных цифровых систем ограничивает их применение в реальных условиях, особенно в таких областях, как робототехника и автономные автомобили, где требуется сложное пространственное мышление. Современные MLLM часто не справляются с базовыми пространственными задачами, например, различением левого и правого.

Выход за рамки анализа одного изображения

Ранее проблемы решались путем включения пространственных данных в обучение, но в основном для одиночных изображений. Это ограничивает способность модели воспринимать динамическую среду и пространственные отношения между несколькими кадрами.

Введение Multi-SpatialMLLM и датасета MultiSPA

Исследователи из FAIR Meta и Китайского университета Гонконга предложили новую архитектуру для улучшения MLLM с помощью надежного многофреймового пространственного понимания. В его основе лежат три ключевых компонента: восприятие глубины, визуальная корреспонденция и динамическое восприятие. Главным элементом является MultiSPA — крупномасштабный датасет с более чем 27 миллионами образцов из разнообразных 3D и 4D сцен.

Комплексные задачи многофреймового пространственного анализа

Для обучения используются пять задач: восприятие глубины, визуальная корреспонденция, восприятие движения камеры, восприятие движения объектов и определение размеров объектов. Модель Multi-SpatialMLLM использует эти данные для масштабируемого и обобщаемого анализа нескольких кадров.

Формат данных и бенчмаркинг

MultiSPA использует стандартный формат QA-пар для дообучения MLLM. GPT-4o генерирует разнообразные шаблоны описаний задач, вопросов и ответов. В датасет включены высококачественные аннотированные наборы данных, такие как Aria Digital Twin, Panoptic Studio, TAPVid3D и ScanNet. Бенчмарк содержит 7 800 примеров для оценки по подзадачам.

Результаты и обобщаемость

На бенчмарке MultiSPA Multi-SpatialMLLM показывает средний прирост в 36% по сравнению с базовыми моделями, достигая 80–90% точности в качественных задачах против 50% у базовых моделей. Модель превосходит и проприетарные системы. Особенно примечателен результат в задаче предсказания движения камеры — 18% точности при почти нулевых результатах у конкурентов. На бенчмарке BLINK достигается почти 90% точности с улучшением в среднем на 26,4%. Оценка на стандартных VQA-бенчмарках подтверждает сохранение общих возможностей MLLM без переобучения.

Вклад исследования и новые возможности

Работа расширяет пространственное понимание MLLM на многофреймовые сценарии, закрывая значительный пробел в исследованиях. MultiSPA — первый в мире крупномасштабный датасет и бенчмарк для многофреймовых пространственных задач. Эксперименты показывают эффективность, масштабируемость и хорошую обобщаемость Multi-SpatialMLLM. Исследование выявляет преимущества мультизадачного обучения и новые способности в пространственном мышлении, открывая новые применения, включая аннотирование наград на основе нескольких кадров.

Для дополнительной информации ознакомьтесь с публикацией, страницей проекта и репозиторием GitHub. Следите за обновлениями в Twitter, присоединяйтесь к сообществу ML SubReddit с более чем 95 тысячами участников и подписывайтесь на рассылку.