Graph-R1: агентная гиперграфовая RAG для многошагового вывода с обучением с подкреплением
'Graph-R1 сочетает гиперграфовые знания, агентный многошаговый поиск и сквозное RL, достигая высоких показателей точности и эффективности в QA.'
Что такое Graph-R1
Graph-R1 объединяет гиперграфовое представление знаний, агентный многошаговый поиск и сквозную оптимизацию с помощью обучения с подкреплением. Модель решает типичные проблемы RAG, связанные с разбиением на чанки и однократным извлечением, обеспечивая более богатую семантику и адаптивный поиск знаний.
Легковесная конструкция гиперграфа знаний
Вместо индексирования текстовых фрагментов Graph-R1 строит гиперграф знаний, где сегменты извлекаются с помощью LLM и n-арного извлечения отношений. Такой подход создает более выразительные связи между сущностями при низкой стоимости. Для построения гиперграфа указаны значения 5.69 секунды и $2.81 за 1,000 токенов, итоговые графы содержат около 120,499 узлов и 98,073 ребра.
Агентный многошаговый процесс извлечения
Извлечение моделируется как цикл think → retrieve → rethink → generate. На каждом шаге агент решает, продолжать ли поиск или завершить с ответом. Graph-R1 объединяет извлечение по сущностям и прямое извлечение гиперребер через reciprocal rank aggregation, что позволяет фокусироваться на релевантных участках графа. Взаимодействия в среднем занимают 2.3–2.5 шага и используют контексты примерно по 1,200–1,500 токенов.
Сквозная оптимизация с GRPO
Для обучения агента применяется Group Relative Policy Optimization (GRPO). Функция вознаграждения совмещает format rewards (структурная связность рассуждения) и answer rewards (семантическая корректность). Ответы, полученные в рамках структурно валидных траекторий, получают полное вознаграждение, что стимулирует надежные стратегии вывода, пригодные для разных задач.
Результаты на бенчмарках
Graph-R1 протестирован на шести QA датасетах: 2WikiMultiHopQA, HotpotQA, Musique, Natural Questions, PopQA и TriviaQA. Средние F1 при использовании Qwen2.5-7B приведены ниже:
- NaiveGeneration: 13.87
- StandardRAG: 15.89
- GraphRAG: 24.87
- HyperGraphRAG: 29.40
- Search-R1: 46.19
- R1-Searcher: 42.29
- Graph-R1: 57.82
Graph-R1 достигает до 57.82 среднего F1, значительно опережая предыдущие подходы, а при использовании более крупных моделей прирост усиливается.
Аблации и устойчивость
Отсутствие любого ключевого модуля — построения гиперграфа, многошагового вывода или RL-оптимизации — приводит к существенному падению качества, что подтверждает важность каждой составляющей. В условиях внераспределенных данных модель сохраняет высокую производительность, с O.O.D./I.I.D. соотношениями чаще выше 85%.
Эффективность и качество генерации
Несмотря на богатое представление знаний, Graph-R1 остается эффективным: среднее время ответа около 7.0 секунд и нулевая стоимость генерации на запрос, что лучше, чем у HyperGraphRAG (9.6 секунд, $8.76). По качеству генерации Graph-R1 лидирует в таких метриках, как корректность (86.9), релевантность (95.2) и связность (88.5).
Теоретические выводы и применения
Анализ с точки зрения теории информации показывает, что графовая структура дает больше информационной плотности и более быструю сходимость к правильным ответам по сравнению с чанковой подачей. Многошаговое взаимодействие фокусирует поиск на высоковоздействующих областях графа, а сквозная RL-оптимизация связывает структурные доказательства с языковой генерацией.
Graph-R1 особенно применим для областей, требующих точности и интерпретируемости, таких как медицина, юриспруденция и корпоративная автоматизация знаний.
Switch Language
Read this article in English