TableRAG: революция в многошаговом ответе на вопросы с гибридным SQL и текстовым поиском
TableRAG — новая гибридная AI-система, объединяющая SQL и текстовый поиск для улучшения многошагового ответа на вопросы по документам с таблицами и текстом, показывающая высокую точность на сложных наборах данных.
Задачи многоформатного вопросно-ответного анализа
Обработка вопросов, сочетающих естественный язык и структурированные таблицы, становится ключевой задачей для создания продвинутых ИИ-систем. Многие реальные документы, такие как бизнес-отчёты и научные статьи, содержат смешанный контент из текста и числовых таблиц. Эффективный ИИ должен уметь рассуждать как над текстовыми объяснениями, так и над табличными данными, что существенно сложнее, чем традиционный текстовый вопросно-ответный анализ.
Ограничения существующих моделей
Современные языковые модели испытывают трудности с точной интерпретацией таблиц после их преобразования в текст, теряя важные связи между строками и столбцами. Это приводит к ошибкам в вычислениях, агрегациях и рассуждениях, основанных на нескольких фактах, что затрудняет применение таких моделей для многошаговых вопросов, требующих анализа текста и таблиц.
Предыдущие подходы и их недостатки
Техники Retrieval-Augmented Generation (RAG) применялись для извлечения релевантных текстовых фрагментов для языковых моделей. Однако они не справляются с композиционным или глобальным анализом больших табличных данных. Методы типа NaiveRAG и TableGPT2 пытаются конвертировать таблицы в Markdown или генерировать Python-код для исполнения, но при этом потеряна исходная структура таблиц, необходимая для корректного понимания.
Представляем TableRAG: гибридную систему
Исследователи из Huawei Cloud BU предложили TableRAG — гибридную систему, которая чередует текстовый поиск и структурированное выполнение SQL-запросов. Этот подход сохраняет структуру таблиц и рассматривает запросы к ним как единое логическое целое, учитывая реляционные связи строк и столбцов. Для оценки разработан набор данных HeteQA, включающий задачи многошагового рассуждения в разных доменах.
Принцип работы TableRAG
TableRAG работает в два этапа:
-
Офлайн: парсинг разнородных документов, выделение таблиц в реляционные базы данных и текста — в разбиенные на части базы знаний.
-
Онлайн: обработка вопросов пользователя в четыре итеративных шага — разложение запроса, поиск текста, программирование и выполнение SQL, генерация промежуточного ответа. Система динамически определяет необходимость табличного или текстового анализа и комбинирует результаты. SQL обеспечивает точное символическое исполнение, улучшая вычислительные и логические операции.
Результаты и тестирование
TableRAG протестировали на HybridQA, WikiTableQuestions и новом наборе HeteQA с 304 сложными вопросами из 9 доменов, 136 уникальными таблицами и более 5300 сущностями из Википедии. Задачи включают фильтрацию, агрегацию, группировку, вычисления и сортировку. TableRAG превзошёл базовые модели NaiveRAG, React и TableGPT2, показывая более высокую точность и используя до 5 итеративных шагов и модели Claude-3.5-Sonnet и Qwen-2.5-72B.
Значимость и перспективы
Сохраняя структуру таблиц и применяя SQL для работы с данными, TableRAG предлагает надёжное решение для многошагового ответа на вопросы по смешанным документам. Этот подход обеспечивает более точное, масштабируемое и интерпретируемое понимание документов и представляет значительный прогресс в области ИИ для обработки разнородных данных.
Для подробностей ознакомьтесь с оригинальной статьёй и репозиторием на GitHub.
Switch Language
Read this article in English