AmbiGraph-Eval: бенчмарк для разрешения неоднозначности в генерации графовых запросов
'AmbiGraph-Eval представляет бенчмарк из 560 неоднозначных запросов для проверки LLM при генерации Cypher. Тестирование девяти моделей показало ключевые проблемы в разрешении неоднозначности и формировании корректного синтаксиса.'
Семантический парсинг переводит естественный язык в формальные графовые запросы, такие как Cypher, что упрощает взаимодействие с базами данных. При этом естественный язык часто неоднозначен, а запросы требуют точности. Для графовых баз данных это осложняется тем, что узлы и связи предоставляют множество интерпретаций одного и того же выражения.
Почему неоднозначность в графовых запросах важна
Фраза вроде 'лучший оцененный ресторан' может соответствовать разным запросам: сравнение отдельных оценок, агрегированных скорингов или оценок, связанных с конкретными визитами или рецензентами. Неверная интерпретация приводит к ошибочным результатам, избыточной выборке данных и лишним вычислениям. В условиях, чувствительных ко времени или в критичных приложениях, такие ошибки повышают расходы и снижают эффективность.
Типы неоднозначности
Исследователи выделяют три типа неоднозначности в графовых запросах:
- Неоднозначность атрибута: непонятно, к какому свойству узла относится запрос.
- Неоднозначность связи: неясно, какой тип ребра или путь между сущностями имеется в виду.
- Неоднозначность атрибут-связь: сочетание первых двух, создающее многомерную неопределенность.
Классификация помогает целенаправленно оценивать и анализировать ошибки моделей.
Создание AmbiGraph-Eval
AmbiGraph-Eval содержит 560 неоднозначных запросов на естественном языке и соответствующие образцы графовых баз данных. Датасет собран в два этапа: первичный сбор данных и человеческая проверка. Запросы с неоднозначностью получали тремя способами: извлечение из существующих графовых баз, синтез из однозначных данных с помощью LLM и полная генерация новых случаев с подсказками к LLM. Человеческая проверка обеспечила реалистичность и подлинную неоднозначность примеров.
В исследовании протестировали девять LLM, включая закрытые модели вроде GPT-4 и Claude-3.5-Sonnet и открытые модели вроде Qwen-2.5 и LLaMA-3.1. Оценки проводились через API или локально на GPU и фокусировались на нулевом выстреле при генерации Cypher и умении разрешать неоднозначности.
Основные результаты тестирования
Результаты различаются в зависимости от типа неоднозначности и конфигурации задачи:
- Неоднозначность атрибута: модели показывают разные результаты для задач same-entity и cross-entity. O1-mini хорошо проявил себя в same-entity, GPT-4o и LLaMA-3.1 тоже показали сильные стороны. GPT-4o лидирует в cross-entity задачах.
- Неоднозначность связи: LLaMA-3.1 был лучшим в целом, GPT-4o показал смешанные результаты, слабее в same-entity и сильнее в cross-entity.
- Неоднозначность атрибут-связь: самая сложная категория. LLaMA-3.1 оказался лучшим в same-entity, GPT-4o в cross-entity, но общие показатели ниже, чем для отдельных типов неоднозначности.
Из результатов видно, что хорошие способности к рассуждению не гарантируют надежного разрешения неоднозначностей в графовых запросах. Модели испытывают трудности с выделением неоднозначного намерения, генерацией корректного синтаксиса, интерпретацией схемы графа и выполнением агрегатов.
Узкие места и пути улучшения
Два основных препятствия — обнаружение неоднозначности и генерация синтаксиса. Даже при умении рассуждать о сущностях и атрибутах модель может не суметь корректно сформулировать Cypher или указать на несколько возможных трактовок. Возможные направления улучшений включают подсказки, учитывающие синтаксис, явное сигнализирование о неоднозначности и интеграцию информации о схеме или интерактивные стратегии уточнения. Бенчмарк служит диагностическим инструментом для дальнейших исследований по согласованию вывода LLM с реальным намерением пользователя.
Ресурсы
Исследователи публикуют техническую статью и GitHub-репозиторий с учебными материалами, кодом и ноутбуками для воспроизведения и расширения бенчмарка.
Switch Language
Read this article in English