AmbiGraph-Eval: бенчмарк для разрешения неоднозначности в генерации графовых запросов

Семантический парсинг переводит естественный язык в формальные графовые запросы, такие как Cypher, что упрощает взаимодействие с базами данных. При этом естественный язык часто неоднозначен, а запросы требуют точности. Для графовых баз данных это осложняется тем, что узлы и связи предоставляют множество интерпретаций одного и того же выражения.

Почему неоднозначность в графовых запросах важна

Фраза вроде 'лучший оцененный ресторан' может соответствовать разным запросам: сравнение отдельных оценок, агрегированных скорингов или оценок, связанных с конкретными визитами или рецензентами. Неверная интерпретация приводит к ошибочным результатам, избыточной выборке данных и лишним вычислениям. В условиях, чувствительных ко времени или в критичных приложениях, такие ошибки повышают расходы и снижают эффективность.

Типы неоднозначности

Исследователи выделяют три типа неоднозначности в графовых запросах:

Неоднозначность атрибута: непонятно, к какому свойству узла относится запрос.
Неоднозначность связи: неясно, какой тип ребра или путь между сущностями имеется в виду.
Неоднозначность атрибут-связь: сочетание первых двух, создающее многомерную неопределенность.

Классификация помогает целенаправленно оценивать и анализировать ошибки моделей.

Создание AmbiGraph-Eval

AmbiGraph-Eval содержит 560 неоднозначных запросов на естественном языке и соответствующие образцы графовых баз данных. Датасет собран в два этапа: первичный сбор данных и человеческая проверка. Запросы с неоднозначностью получали тремя способами: извлечение из существующих графовых баз, синтез из однозначных данных с помощью LLM и полная генерация новых случаев с подсказками к LLM. Человеческая проверка обеспечила реалистичность и подлинную неоднозначность примеров.

В исследовании протестировали девять LLM, включая закрытые модели вроде GPT-4 и Claude-3.5-Sonnet и открытые модели вроде Qwen-2.5 и LLaMA-3.1. Оценки проводились через API или локально на GPU и фокусировались на нулевом выстреле при генерации Cypher и умении разрешать неоднозначности.

Основные результаты тестирования

Результаты различаются в зависимости от типа неоднозначности и конфигурации задачи:

Неоднозначность атрибута: модели показывают разные результаты для задач same-entity и cross-entity. O1-mini хорошо проявил себя в same-entity, GPT-4o и LLaMA-3.1 тоже показали сильные стороны. GPT-4o лидирует в cross-entity задачах.
Неоднозначность связи: LLaMA-3.1 был лучшим в целом, GPT-4o показал смешанные результаты, слабее в same-entity и сильнее в cross-entity.
Неоднозначность атрибут-связь: самая сложная категория. LLaMA-3.1 оказался лучшим в same-entity, GPT-4o в cross-entity, но общие показатели ниже, чем для отдельных типов неоднозначности.

Из результатов видно, что хорошие способности к рассуждению не гарантируют надежного разрешения неоднозначностей в графовых запросах. Модели испытывают трудности с выделением неоднозначного намерения, генерацией корректного синтаксиса, интерпретацией схемы графа и выполнением агрегатов.

Узкие места и пути улучшения

Два основных препятствия — обнаружение неоднозначности и генерация синтаксиса. Даже при умении рассуждать о сущностях и атрибутах модель может не суметь корректно сформулировать Cypher или указать на несколько возможных трактовок. Возможные направления улучшений включают подсказки, учитывающие синтаксис, явное сигнализирование о неоднозначности и интеграцию информации о схеме или интерактивные стратегии уточнения. Бенчмарк служит диагностическим инструментом для дальнейших исследований по согласованию вывода LLM с реальным намерением пользователя.

Ресурсы

Исследователи публикуют техническую статью и GitHub-репозиторий с учебными материалами, кодом и ноутбуками для воспроизведения и расширения бенчмарка.