Vision-RAG против Text-RAG: какой подход лучше для корпоративного поиска?

Почему ошибка начинается на этапе retrieval

Большинство сбоев RAG возникают на этапе поиска, а не генерации. При конвертации PDF в текст теряются семантика макета, структура таблиц и привязка фигур к тексту. Это снижает recall и precision задолго до запуска LLM.

Где ломается Text-RAG

Классический Text-RAG: PDF → парсер/OCR → текстовые чанки → текстовые эмбеддинги → ANN-индекс → извлечение → LLM. Типичные проблемы: шум OCR, нарушение потока в многоколоночных макетах, утрата структуры ячеек таблицы и отсутствие семантики фигур и графиков. Эти ошибки подтверждены бенчмарками по таблицам и документному VQA.

Подход Vision-RAG

Vision-RAG сохраняет документы как рендеры страниц: PDF → растер страницы → VLM-эмбеддинги (часто многовекторные с late-interaction) → ANN-индекс → извлечение → VLM/LLM потребляет полные страницы или высококачественные кропы. Это сохраняет расположение элементов, пространственные связи и привязку фигур к тексту, решая ключевую проблему текстовых пайплайнов.

Доказательства и бенчмарки

Поиск по изображению документа показывает высокую эффективность и простоту end-to-end обучения. ColPali использует эмбеддинги страниц и late-interaction матчинг; на ViDoRe он превосходит современные текстовые пайплайны. VisRAG демонстрирует 25–39% улучшение end-to-end в мультимодальных документах при использовании VLM для retrieval и генерации. VDocRAG продвигает унифицированный образный формат документов и вводит OpenDocVQA для оценки. Модели с поддержкой высокого разрешения, например семейство Qwen2-VL, показывают лучшие результаты на DocVQA и смежных задачах, что подчеркивает важность fidelity для мелких символов и меток.

Стоимость и учёт токенов

Визуальные входы часто увеличивают число токенов из-за тайлинга. Для некоторых моделей общий токеновый счёт примерно равен base + (tile_tokens × tiles), поэтому страницы в 1–2 MP могут стоить в 10 раз дороже, чем небольшой текстовый фрагмент. Anthropic советует лимиты около 1.15 MP для отзывчивости. Даже при одинаковой цене за токен большие изображения потребляют гораздо больше. Инженерное следствие: отправляйте высокое разрешение только для релевантных областей.

Практические правила для production Vision-RAG

Выравнивайте модальности в эмбеддингах. Используйте энкодеры, обученные для textimage alignment, например семейство CLIP или VLM-ретриверы. Часто удобно держать два индекса: дешёвый текстовый для охвата и vision rerank для точности. Late-interaction MaxSim-подход ColPali — хорошая отправная точка.
Подавайте высокое разрешение выборочно. Coarse-to-fine: запустите BM25 или DPR, возьмите top-k страниц для vision reranker, затем отправьте в генератор только ROI-кропы (таблицы, диаграммы, штампы). Это сохраняет нужные пиксели без взрыва токенов.
Инжинирьте под реальные документы. Для таблиц при необходимости используйте модели структуры таблиц (PubTables-1M, TATR), иначе предпочитайте image-native retrieval. Для диаграмм обеспечьте разрешение, сохраняющее тики и легенды. Рендер страниц помогает со скошенными сканами, белыми досками и мультиязычными шрифтами. Храните provenance: хеш страницы и координаты кропов вместе с эмбеддингами, чтобы воспроизвести визуальные доказательства ответов.

Когда выбирать Text-RAG

Text-RAG остаётся хорошим выбором для чистых текстовых коллекций: контракты с фиксированными шаблонами, вики, код. Он также предпочтителен при строгих требованиях по задержкам и бюджету, либо когда данные уже нормализованы в CSV или Parquet.

Когда выбирать Vision-RAG

Vision-RAG — практичный дефолт для корпоративных документов с богатой визуальной структурой: таблицы, графики, слайды, штампы, повёрнутые сканы и мультиязычная типографика. Команды, которые (1) выравнивают модальности, (2) доставляют выборочные высококачественные визуальные доказательства и (3) оценивают решения мультимодальными бенчмарками, стабильно получают более точный поиск и лучшие ответы.

На что смотреть в оценке

Отслеживайте DocVQA, PubTables-1M, ViDoRe, VisRAG и VDocRAG. Оценивайте совместно retrieval и generation на визуально насыщенных наборах, например OpenDocVQA, чтобы захватить релевантность кропов и привязку макета. Добавляйте мультимодальные RAG-бенчмарки вроде M2RAG, REAL-MM-RAG и RAG-Check, чтобы ловить случаи неправильных кропов или несоответствий фигура-текст.

Коротко

Text-RAG эффективен для чистого текста. Vision-RAG лучше для реальных корпоративных документов с макетом и графикой. Комбинация дешёвого текстового recall, vision rerank и селективных кропов даёт наилучший компромисс между точностью и стоимостью при сохранении пиксельного provenance.