UniversalRAG: Динамический мультимодальный поиск для умных ответов ИИ

Повышение точности LLM с помощью мультимодального поиска

Retrieval-Augmented Generation (RAG) значительно улучшает фактическую точность больших языковых моделей, основывая их ответы на релевантных внешних данных. Тем не менее, большинство традиционных RAG-систем ориентированы только на текстовые корпуса, что ограничивает их использование при запросах, требующих разные типы данных, такие как изображения или видео.

Проблемы существующих мультимодальных RAG-систем

Недавние попытки расширить RAG на несколько модальностей часто работают внутри одного корпуса, специфичного для одной модальности. Такой подход ограничивает возможности для мультимодального рассуждения и обычно выполняет поиск по всем модальностям без разбора, что снижает эффективность и адаптивность.

Необходимость адаптивного выбора модальности и детализации

Для преодоления этих ограничений адаптивные RAG-системы должны определять наиболее релевантную модальность и подходящий уровень детализации поиска на основе контекста запроса. Стратегии включают маршрутизацию запросов по сложности, использование уверенности модели и индексирование корпусов на более мелких уровнях, например, абзацах или отдельных видеоклипах, для повышения релевантности.

Представляем UniversalRAG: инновационную платформу

Исследователи из KAIST и DeepAuto.ai разработали UniversalRAG — новую RAG-платформу, которая динамически направляет запросы по источникам, специфичным для модальностей (текст, изображение, видео), и на разных уровнях детализации. В отличие от традиционных методов, объединяющих все модальности в одном пространстве встраивания, UniversalRAG использует механизм маршрутизации с учётом модальности для выбора наиболее релевантного корпуса.

Каждая модальность организована в корпуса с определённой степенью детализации, например, абзацы или видеоклипы, что повышает точность поиска. UniversalRAG проверена на восьми мультимодальных тестах и постоянно превосходит как универсальные, так и модально-специфичные базовые модели.

Как работает UniversalRAG

UniversalRAG разделяет знания на текстовые, визуальные и видео-корпуса с мелкой и крупной детализацией. Модуль маршрутизации определяет оптимальную модальность и детализацию для каждого запроса, выбирая из вариантов, таких как абзацы, полные документы, видеоклипы или целое видео. Этот маршрутизатор может быть классификатором на основе LLM без обучения или обученной моделью с эвристическими метками.

Затем крупная модель визуально-языкового понимания (LVLM) использует выбранный контент для генерации точного ответа.

Комплексное тестирование и результаты

Система оценивалась в шести сценариях: без поиска, по абзацам, документам, изображениям, клипам и видео. Использовались разнообразные датасеты, такие как MMLU, SQuAD, Natural Questions, HotpotQA, WebQA, LVBench и VideoRAG, что обеспечило всестороннюю проверку по разным модальностям и уровням детализации.

Продвижение мультимодального рассуждения с гибким поиском

Динамическая маршрутизация UniversalRAG устраняет разрывы между модальностями и негибкие структуры поиска, характерные для существующих методов RAG. Эта гибкость, сочетающаяся с мелкозернистым поиском и как обученными, так и не обученными механизмами маршрутизации, обеспечивает надёжное и эффективное мультимодальное рассуждение, расширяя возможности retrieval-augmented generation.