ByteDance представляет VGR: продвинутая мультимодальная модель с улучшенным визуальным рассуждением

Значение мультимодального рассуждения в задачах зрения и языка

Мультимодальное рассуждение позволяет моделям эффективно объединять визуальную и текстовую информацию, что помогает интерпретировать диаграммы, отвечать на вопросы по изображениям и понимать сложные визуальные документы. Это даёт машинам возможность не просто видеть, а понимать визуальный контент и связывать его с языковым анализом.

Проблемы визуального рассуждения из-за языкового смещения

Многие современные модели слишком сильно зависят от лингвистической информации, даже когда требуется детальный визуальный анализ. Это снижает эффективность в задачах, где нужно точно определить объекты или интерпретировать числовые данные на изображениях. Вместо анализа визуального контента модели часто пытаются ответить, опираясь на языковые шаблоны, что ограничивает их возможности.

Ограничения существующих моделей зрения и языка

Несмотря на попытки улучшить работу моделей, многие из них не способны анализировать тонкие визуальные детали. Некоторые используют заранее сгенерированные подписи к изображениям или аннотированные области, другие опираются на структурированные запросы для рассуждений. Однако такие методы страдают от статичных визуальных данных и негибких процессов, что затрудняет интеграцию зрения и рассуждений, особенно при открытых запросах.

Представляем VGR: модель визуального обоснованного рассуждения

Исследователи из ByteDance и Университета Китайской академии наук разработали VGR — новую модель, которая динамически взаимодействует с визуальными элементами во время рассуждений. В отличие от традиционных подходов, VGR одновременно обрабатывает изображение и текст, выделяя важные области изображения, связанные с вопросом, и включая их в процесс ответа. Также создан датасет VGR-SFT, позволяющий обучать модель визуальному рассуждению с встроенными визуальными подсказками без ручных аннотаций.

Селективный визуальный повтор для эффективного анализа изображений

Основой VGR является технология селективного визуального повтора, которая позволяет модели извлекать нужные части изображения по требованию. Визуальный энкодер преобразует области изображения в токены, которые сохраняются в визуальной памяти. В процессе рассуждения, когда требуется визуальная информация, модель инициирует повтор, возвращая соответствующие токены в поток анализа. Стратегия AnyRes расширяет поддержку разрешений и снижает потребление токенов. По сравнению с базовыми методами, VGR использует только 144 токена для снимков и 720 для высокоразрешённых областей, что на 70% меньше. Обучение совмещает стандартное контролируемое обучение с дополнительной функцией потерь для улучшения выбора и интерпретации областей.

Результаты на бенчмарках: точность и эффективность

Испытания VGR на базе LLaVA-NeXT-7B показали впечатляющие результаты. На бенчмарке MMStar модель улучшила точность на 4.1 пункта, на AI2D — на 7.1, а на ChartQA — на 12.9, при этом используя всего 30% визуальных токенов по сравнению с базовой моделью. В другом сравнении VGR повысила результат на MMStar на 6.4 и на ChartQA на 14.1 пункта, демонстрируя высокую эффективность и точность при меньших ресурсах.

Прорыв в области рассуждений, выходящих за рамки текста

Данная работа доказывает, что продуманная интеграция визуальных данных в процесс рассуждения позволяет преодолеть ограничения текстовых моделей. Исследователи нашли решение важной проблемы, разработали точный метод и подтвердили его эффективность на практике. VGR задаёт новый стандарт объединения зрения и языка в интеллектуальных системах.

Для подробностей ознакомьтесь с оригинальной статьёй и моделью от авторов исследования.