UniversalRAG: Динамический мультимодальный поиск для умных ответов ИИ
UniversalRAG представляет динамическую систему маршрутизации, эффективно обрабатывающую мультимодальные запросы, выбирая наиболее релевантную модальность и уровень детализации, превосходя существующие RAG-модели.
Повышение точности LLM с помощью мультимодального поиска
Retrieval-Augmented Generation (RAG) значительно улучшает фактическую точность больших языковых моделей, основывая их ответы на релевантных внешних данных. Тем не менее, большинство традиционных RAG-систем ориентированы только на текстовые корпуса, что ограничивает их использование при запросах, требующих разные типы данных, такие как изображения или видео.
Проблемы существующих мультимодальных RAG-систем
Недавние попытки расширить RAG на несколько модальностей часто работают внутри одного корпуса, специфичного для одной модальности. Такой подход ограничивает возможности для мультимодального рассуждения и обычно выполняет поиск по всем модальностям без разбора, что снижает эффективность и адаптивность.
Необходимость адаптивного выбора модальности и детализации
Для преодоления этих ограничений адаптивные RAG-системы должны определять наиболее релевантную модальность и подходящий уровень детализации поиска на основе контекста запроса. Стратегии включают маршрутизацию запросов по сложности, использование уверенности модели и индексирование корпусов на более мелких уровнях, например, абзацах или отдельных видеоклипах, для повышения релевантности.
Представляем UniversalRAG: инновационную платформу
Исследователи из KAIST и DeepAuto.ai разработали UniversalRAG — новую RAG-платформу, которая динамически направляет запросы по источникам, специфичным для модальностей (текст, изображение, видео), и на разных уровнях детализации. В отличие от традиционных методов, объединяющих все модальности в одном пространстве встраивания, UniversalRAG использует механизм маршрутизации с учётом модальности для выбора наиболее релевантного корпуса.
Каждая модальность организована в корпуса с определённой степенью детализации, например, абзацы или видеоклипы, что повышает точность поиска. UniversalRAG проверена на восьми мультимодальных тестах и постоянно превосходит как универсальные, так и модально-специфичные базовые модели.
Как работает UniversalRAG
UniversalRAG разделяет знания на текстовые, визуальные и видео-корпуса с мелкой и крупной детализацией. Модуль маршрутизации определяет оптимальную модальность и детализацию для каждого запроса, выбирая из вариантов, таких как абзацы, полные документы, видеоклипы или целое видео. Этот маршрутизатор может быть классификатором на основе LLM без обучения или обученной моделью с эвристическими метками.
Затем крупная модель визуально-языкового понимания (LVLM) использует выбранный контент для генерации точного ответа.
Комплексное тестирование и результаты
Система оценивалась в шести сценариях: без поиска, по абзацам, документам, изображениям, клипам и видео. Использовались разнообразные датасеты, такие как MMLU, SQuAD, Natural Questions, HotpotQA, WebQA, LVBench и VideoRAG, что обеспечило всестороннюю проверку по разным модальностям и уровням детализации.
Продвижение мультимодального рассуждения с гибким поиском
Динамическая маршрутизация UniversalRAG устраняет разрывы между модальностями и негибкие структуры поиска, характерные для существующих методов RAG. Эта гибкость, сочетающаяся с мелкозернистым поиском и как обученными, так и не обученными механизмами маршрутизации, обеспечивает надёжное и эффективное мультимодальное рассуждение, расширяя возможности retrieval-augmented generation.
Switch Language
Read this article in English