Graph-R1: агентная гиперграфовая RAG для многошагового вывода с обучением с подкреплением

Что такое Graph-R1

Graph-R1 объединяет гиперграфовое представление знаний, агентный многошаговый поиск и сквозную оптимизацию с помощью обучения с подкреплением. Модель решает типичные проблемы RAG, связанные с разбиением на чанки и однократным извлечением, обеспечивая более богатую семантику и адаптивный поиск знаний.

Легковесная конструкция гиперграфа знаний

Вместо индексирования текстовых фрагментов Graph-R1 строит гиперграф знаний, где сегменты извлекаются с помощью LLM и n-арного извлечения отношений. Такой подход создает более выразительные связи между сущностями при низкой стоимости. Для построения гиперграфа указаны значения 5.69 секунды и $2.81 за 1,000 токенов, итоговые графы содержат около 120,499 узлов и 98,073 ребра.

Агентный многошаговый процесс извлечения

Извлечение моделируется как цикл think → retrieve → rethink → generate. На каждом шаге агент решает, продолжать ли поиск или завершить с ответом. Graph-R1 объединяет извлечение по сущностям и прямое извлечение гиперребер через reciprocal rank aggregation, что позволяет фокусироваться на релевантных участках графа. Взаимодействия в среднем занимают 2.3–2.5 шага и используют контексты примерно по 1,200–1,500 токенов.

Сквозная оптимизация с GRPO

Для обучения агента применяется Group Relative Policy Optimization (GRPO). Функция вознаграждения совмещает format rewards (структурная связность рассуждения) и answer rewards (семантическая корректность). Ответы, полученные в рамках структурно валидных траекторий, получают полное вознаграждение, что стимулирует надежные стратегии вывода, пригодные для разных задач.

Результаты на бенчмарках

Graph-R1 протестирован на шести QA датасетах: 2WikiMultiHopQA, HotpotQA, Musique, Natural Questions, PopQA и TriviaQA. Средние F1 при использовании Qwen2.5-7B приведены ниже:

NaiveGeneration: 13.87
StandardRAG: 15.89
GraphRAG: 24.87
HyperGraphRAG: 29.40
Search-R1: 46.19
R1-Searcher: 42.29
Graph-R1: 57.82

Graph-R1 достигает до 57.82 среднего F1, значительно опережая предыдущие подходы, а при использовании более крупных моделей прирост усиливается.

Аблации и устойчивость

Отсутствие любого ключевого модуля — построения гиперграфа, многошагового вывода или RL-оптимизации — приводит к существенному падению качества, что подтверждает важность каждой составляющей. В условиях внераспределенных данных модель сохраняет высокую производительность, с O.O.D./I.I.D. соотношениями чаще выше 85%.

Эффективность и качество генерации

Несмотря на богатое представление знаний, Graph-R1 остается эффективным: среднее время ответа около 7.0 секунд и нулевая стоимость генерации на запрос, что лучше, чем у HyperGraphRAG (9.6 секунд, $8.76). По качеству генерации Graph-R1 лидирует в таких метриках, как корректность (86.9), релевантность (95.2) и связность (88.5).

Теоретические выводы и применения

Анализ с точки зрения теории информации показывает, что графовая структура дает больше информационной плотности и более быструю сходимость к правильным ответам по сравнению с чанковой подачей. Многошаговое взаимодействие фокусирует поиск на высоковоздействующих областях графа, а сквозная RL-оптимизация связывает структурные доказательства с языковой генерацией.

Graph-R1 особенно применим для областей, требующих точности и интерпретируемости, таких как медицина, юриспруденция и корпоративная автоматизация знаний.