MMSearch-R1: Революция в мультимодальном поиске в LMM с помощью обучения с подкреплением

Проблемы больших мультимодальных моделей

Большие мультимодальные модели (LMM) значительно расширили возможности ИИ, объединяя разные типы данных, такие как изображения и текст, что позволяет выполнять задачи интерпретации изображений и отвечать на визуальные вопросы. Однако эти модели испытывают трудности с динамичной или вновь появляющейся информацией, которая отсутствовала в обучающих данных, особенно если факты находятся за защищёнными или закрытыми источниками. Это приводит к ошибочным или вымышленным ответам при запросах, требующих актуальных или редких данных в реальном времени.

Существующие подходы и их ограничения

Для устранения этих проблем были разработаны методы, такие как Retrieval-Augmented Generation (RAG) и агенты поиска на основе подсказок. RAG извлекает информацию из статичных баз данных перед формированием ответов, но часто собирает избыточные данные, предполагая, что вся необходимая информация уже доступна. Агенты с подсказками могут выполнять поиск в интернете, но не способны обучаться и оптимизировать стратегию поиска со временем. Оба подхода неэффективны при работе с непредсказуемыми сценариями в реальной жизни.

Представляем MMSearch-R1: новая система обучения с подкреплением

Исследователи из ByteDance и S-Lab Наньянгского технологического университета разработали MMSearch-R1 — инновационную систему, которая наделяет LMM возможностью выполнять мультитуровые поиски по запросу с помощью обучения с подкреплением. В отличие от предыдущих методов, MMSearch-R1 обучает модели не только выполнять поиск, но и решать, когда, что и как искать, повышая точность и эффективность поиска.

Система поддерживает инструменты для поиска как по изображениям, так и по тексту, которые модель вызывает динамически на основе контекста, а не по фиксированной схеме. Это обеспечивает гибкость при работе с разнообразными запросами в реальной интернет-среде.

Техническая основа: Group Relative Policy Optimization (GRPO)

MMSearch-R1 использует специализированный алгоритм обучения с подкреплением — Group Relative Policy Optimization (GRPO), модификацию PPO. Система вознаграждает модель за точные ответы и наказывает за ненужные поиски. Модель многократно оценивает необходимость дополнительной информации и выбирает между текстовым или визуальным поиском.

Например, она обращается к SerpApi для получения пяти наиболее релевантных изображений или веб-страниц и использует Jina Reader и Qwen3-32B для извлечения и суммирования контента. Модель структурирует рассуждения и действия поиска в заранее определённых форматах, что упрощает обработку информации на каждом этапе взаимодействия.

Результаты и оценка эффективности

В тестах MMSearch-R1-7B превзошла другие модели с поддержкой поиска аналогичного размера и почти достигла уровня более крупной 32-миллиардной модели RAG, при этом сократив количество вызовов поиска более чем на 30%. Это свидетельствует о значительном улучшении точности и эффективности.

Фреймворк был испытан на задачах, требующих глубоких знаний, с использованием сбалансированного датасета FactualVQA (FVQA), включающего запросы, требующие и не требующие поиска. Это помогло модели научиться определять необходимость обращения к внешним данным.

Влияние на развитие ИИ-систем

MMSearch-R1 устраняет важное ограничение LMM, обучая модели осознанно и избирательно использовать внешний поиск. Такой подход снижает количество ошибочных ответов и повышает качество, поскольку модели учатся распознавать пробелы в знаниях и целенаправленно искать нужную информацию. Это меняет подход к проектированию ИИ, делая системы более контекстно осведомлёнными и надёжными.

Подробнее о проекте можно узнать из научной статьи и на GitHub-странице. Все заслуги принадлежат исследователям, работавшим над этим проектом.