Mirage: Визуальное мышление в моделях Vision-Language без генерации изображений

Ограничения современных моделей Vision-Language (VLM)

Модели, работающие с изображениями и текстом, хорошо понимают оба типа данных, но при рассуждениях часто опираются только на текст. Это снижает их эффективность в задачах, требующих визуального мышления, например, при решении пространственных головоломок. Люди естественным образом визуализируют решения, не описывая каждую деталь словами, тогда как модели пока не умеют так делать. Некоторые новые модели способны генерировать и текст, и изображения, но обучение генерации изображений часто снижает качество рассуждений и не поддерживает пошаговое визуальное мышление.

Существующие подходы к мультимодальному рассуждению

Метод Chain-of-Thought (CoT) стимулирует модели рассуждать поэтапно с промежуточными объяснениями. Для мультимодальных задач CoT расширяют, интегрируя визуальную информацию в процесс рассуждения. Например, ICoT встраивает области изображений в текстовые последовательности, а Visual CoT использует визуальные аннотации для улучшения пространственного понимания. Однако такие модели требуют большого объема обучения и вычислительных ресурсов. Другие исследования предлагают встраивать рассуждения внутрь модели через скрытые состояния, используя специальные токены или латентные представления вместо явных шагов рассуждения.

Mirage: рамочная система, вдохновленная мысленными образами человека

Исследователи из Университета Массачусетса и MIT представляют Mirage — новую систему, вдохновленную тем, как люди используют мысленные образы. Вместо генерации полноценных изображений Mirage позволяет моделям вставлять компактные визуальные подсказки, получаемые из скрытых состояний, прямо в текстовые ответы. Это имитирует процесс формирования внутреннего визуального представления, релевантного задаче.

Обучение Mirage проходит в два этапа: сначала с совместным контролем по тексту и визуальным данным, где сжатыми визуальными признаками (латентными токенами) управляют внутри рассуждений, затем — с ослаблением ограничений, позволяющим модели самостоятельно генерировать эти токены для поддержки рассуждений. Финальный этап — обучение с подкреплением, улучшающее точность и структуру ответов.

Результаты на задачах пространственного рассуждения

Модель протестировали на четырех задачах пространственного мышления, включая визуальные головоломки и геометрические задачи, используя небольшой датасет из 1000 обучающих примеров. Для поддержки рассуждений создавались синтетические вспомогательные изображения и шаги мысли, имитирующие человеческие наброски и подсказки. Mirage последовательно превосходила как текстовые, так и мультимодальные базовые модели, даже на сложных задачах с планированием, например, решении лабиринтов. Меньшая версия модели также показала хорошие результаты, что подтверждает устойчивость метода. Абляционные исследования выявили ключевую роль начального закрепления латентных визуальных токенов с последующим гибким обучением.

Значение и перспективы

Mirage доказывает, что совмещение визуальных и текстовых рассуждений без генерации реальных изображений улучшает понимание и точность моделей Vision-Language. Этот легковесный подход позволяет моделям мыслить ближе к человеческому стилю, используя внутренние визуальные подсказки. Остаются проблемы масштабирования метода на другие задачи и улучшения качества синтетических данных для обучения.