TableRAG: революция в многошаговом ответе на вопросы с гибридным SQL и текстовым поиском

Задачи многоформатного вопросно-ответного анализа

Обработка вопросов, сочетающих естественный язык и структурированные таблицы, становится ключевой задачей для создания продвинутых ИИ-систем. Многие реальные документы, такие как бизнес-отчёты и научные статьи, содержат смешанный контент из текста и числовых таблиц. Эффективный ИИ должен уметь рассуждать как над текстовыми объяснениями, так и над табличными данными, что существенно сложнее, чем традиционный текстовый вопросно-ответный анализ.

Ограничения существующих моделей

Современные языковые модели испытывают трудности с точной интерпретацией таблиц после их преобразования в текст, теряя важные связи между строками и столбцами. Это приводит к ошибкам в вычислениях, агрегациях и рассуждениях, основанных на нескольких фактах, что затрудняет применение таких моделей для многошаговых вопросов, требующих анализа текста и таблиц.

Предыдущие подходы и их недостатки

Техники Retrieval-Augmented Generation (RAG) применялись для извлечения релевантных текстовых фрагментов для языковых моделей. Однако они не справляются с композиционным или глобальным анализом больших табличных данных. Методы типа NaiveRAG и TableGPT2 пытаются конвертировать таблицы в Markdown или генерировать Python-код для исполнения, но при этом потеряна исходная структура таблиц, необходимая для корректного понимания.

Представляем TableRAG: гибридную систему

Исследователи из Huawei Cloud BU предложили TableRAG — гибридную систему, которая чередует текстовый поиск и структурированное выполнение SQL-запросов. Этот подход сохраняет структуру таблиц и рассматривает запросы к ним как единое логическое целое, учитывая реляционные связи строк и столбцов. Для оценки разработан набор данных HeteQA, включающий задачи многошагового рассуждения в разных доменах.

Принцип работы TableRAG

TableRAG работает в два этапа:

Офлайн: парсинг разнородных документов, выделение таблиц в реляционные базы данных и текста — в разбиенные на части базы знаний.
Онлайн: обработка вопросов пользователя в четыре итеративных шага — разложение запроса, поиск текста, программирование и выполнение SQL, генерация промежуточного ответа. Система динамически определяет необходимость табличного или текстового анализа и комбинирует результаты. SQL обеспечивает точное символическое исполнение, улучшая вычислительные и логические операции.

Результаты и тестирование

TableRAG протестировали на HybridQA, WikiTableQuestions и новом наборе HeteQA с 304 сложными вопросами из 9 доменов, 136 уникальными таблицами и более 5300 сущностями из Википедии. Задачи включают фильтрацию, агрегацию, группировку, вычисления и сортировку. TableRAG превзошёл базовые модели NaiveRAG, React и TableGPT2, показывая более высокую точность и используя до 5 итеративных шагов и модели Claude-3.5-Sonnet и Qwen-2.5-72B.

Значимость и перспективы

Сохраняя структуру таблиц и применяя SQL для работы с данными, TableRAG предлагает надёжное решение для многошагового ответа на вопросы по смешанным документам. Этот подход обеспечивает более точное, масштабируемое и интерпретируемое понимание документов и представляет значительный прогресс в области ИИ для обработки разнородных данных.

Для подробностей ознакомьтесь с оригинальной статьёй и репозиторием на GitHub.