Vision-RAG против Text-RAG: какой подход лучше для корпоративного поиска?

Почему ошибка начинается на этапе retrieval

Большинство сбоев RAG возникают на этапе поиска, а не генерации. При конвертации PDF в текст теряются семантика макета, структура таблиц и привязка фигур к тексту. Это снижает recall и precision задолго до запуска LLM.

Где ломается Text-RAG

Классический Text-RAG: PDF → парсер/OCR → текстовые чанки → текстовые эмбеддинги → ANN-индекс → извлечение → LLM. Типичные проблемы: шум OCR, нарушение потока в многоколоночных макетах, утрата структуры ячеек таблицы и отсутствие семантики фигур и графиков. Эти ошибки подтверждены бенчмарками по таблицам и документному VQA.

Подход Vision-RAG

Vision-RAG сохраняет документы как рендеры страниц: PDF → растер страницы → VLM-эмбеддинги (часто многовекторные с late-interaction) → ANN-индекс → извлечение → VLM/LLM потребляет полные страницы или высококачественные кропы. Это сохраняет расположение элементов, пространственные связи и привязку фигур к тексту, решая ключевую проблему текстовых пайплайнов.

Доказательства и бенчмарки

Поиск по изображению документа показывает высокую эффективность и простоту end-to-end обучения. ColPali использует эмбеддинги страниц и late-interaction матчинг; на ViDoRe он превосходит современные текстовые пайплайны. VisRAG демонстрирует 25–39% улучшение end-to-end в мультимодальных документах при использовании VLM для retrieval и генерации. VDocRAG продвигает унифицированный образный формат документов и вводит OpenDocVQA для оценки. Модели с поддержкой высокого разрешения, например семейство Qwen2-VL, показывают лучшие результаты на DocVQA и смежных задачах, что подчеркивает важность fidelity для мелких символов и меток.

Стоимость и учёт токенов

Визуальные входы часто увеличивают число токенов из-за тайлинга. Для некоторых моделей общий токеновый счёт примерно равен base + (tile_tokens × tiles), поэтому страницы в 1–2 MP могут стоить в 10 раз дороже, чем небольшой текстовый фрагмент. Anthropic советует лимиты около 1.15 MP для отзывчивости. Даже при одинаковой цене за токен большие изображения потребляют гораздо больше. Инженерное следствие: отправляйте высокое разрешение только для релевантных областей.

Практические правила для production Vision-RAG

Когда выбирать Text-RAG

Text-RAG остаётся хорошим выбором для чистых текстовых коллекций: контракты с фиксированными шаблонами, вики, код. Он также предпочтителен при строгих требованиях по задержкам и бюджету, либо когда данные уже нормализованы в CSV или Parquet.

Когда выбирать Vision-RAG

Vision-RAG — практичный дефолт для корпоративных документов с богатой визуальной структурой: таблицы, графики, слайды, штампы, повёрнутые сканы и мультиязычная типографика. Команды, которые (1) выравнивают модальности, (2) доставляют выборочные высококачественные визуальные доказательства и (3) оценивают решения мультимодальными бенчмарками, стабильно получают более точный поиск и лучшие ответы.

На что смотреть в оценке

Отслеживайте DocVQA, PubTables-1M, ViDoRe, VisRAG и VDocRAG. Оценивайте совместно retrieval и generation на визуально насыщенных наборах, например OpenDocVQA, чтобы захватить релевантность кропов и привязку макета. Добавляйте мультимодальные RAG-бенчмарки вроде M2RAG, REAL-MM-RAG и RAG-Check, чтобы ловить случаи неправильных кропов или несоответствий фигура-текст.

Коротко

Text-RAG эффективен для чистого текста. Vision-RAG лучше для реальных корпоративных документов с макетом и графикой. Комбинация дешёвого текстового recall, vision rerank и селективных кропов даёт наилучший компромисс между точностью и стоимостью при сохранении пиксельного provenance.