AgentFlow: обучение планировщика с Flow-GRPO для модульных агентов с использованием инструментов
Что такое AgentFlow?
AgentFlow — это обучаемая система, которая структурирует агентов, использующих инструменты, в четыре модуля: Планировщик, Исполнитель, Верефикатор и Генератор. Эксплицитная, эволюционирующая память фиксирует состояния, вызовы инструментов и сигналы проверки. Планировщик предлагает подзадачи и выбирает инструменты с контекстом на каждом шаге, Исполнитель вызывает инструмент, Верефикатор решает, продолжать ли, а Генератор выдаёт финальный ответ при завершении. В цикле обучения тренируется только Планировщик; остальные модули могут быть фиксированными движками.
Архитектура и память
Фреймворк формализует многотуровое, интегрированное с инструментами рассуждение как MDP. Память структурирована для сохранения элементов траектории при ограничении роста контекста, что повышает аудитируемость решений агента и использования инструментов. Такая организация упрощает проверку промежуточных шагов и вызовов инструментов в длинных взаимодействиях.
Flow-GRPO: как обучают Планировщика
Flow-GRPO (Flow-based Group Refined Policy Optimization) переводит задачи с длинным горизонтом и редкой наградой в управляемые обновления по отдельному ходу.
- Трансляция итоговой награды: сигнальная метрика корректности на уровне траектории, оцениваемая LLM-as-judge, присваивается каждому ходу, выравнивая локальные планировочные решения с глобальным успехом.
- Объектив на уровне токенов: рассчитываются важностно-взвешенные отношения по токенам с PPO-подобным обрезанием и KL-пеналью к эталонной политике, чтобы предотвратить дрейф.
- Групповая нормализация преимуществ: снижение дисперсии за счёт нормализации преимуществ по группам on-policy прогонов, что стабилизирует апдейты.
В процессе обучения обновления получают только Планировщик, тогда как Исполнитель, Верефикатор и Генератор могут оставаться фиксированными качественными компонентами.
Бенчмарки и результаты
Команда проверила AgentFlow на десяти бенчмарках, объединённых в четыре семейства задач: поиск с высокой потребностью в знании (Bamboogle, 2Wiki, HotpotQA, Musique), агентное рассуждение (GAIA текстовый сплит), математика (AIME-24, AMC-23, Game of 24) и науки (GPQA, MedQA). С 7B бэкбоном, настроенным Flow-GRPO, получены средние улучшения относительно сильных базовых моделей:
- Поиск: +14.9%
- Агентные задачи: +14.0%
- Математика: +14.5%
- Науки: +4.1%
Авторы утверждают, что их 7B система превосходит GPT-4o на этом наборе задач. Среди эффектов обучения отмечены улучшение качества планирования, снижение ошибок при вызове инструментов (до 28.4% на GAIA) и положительная динамика при увеличении бюджета ходов и масштаба модели. Абляции показывают, что онлайн Flow-GRPO даёт +17.2% по сравнению с зафиксированным Планировщиком, тогда как офлайн-супервизированная дообучка Планировщика ухудшает результат на −19.0% по составной метрике.
Реализация и лицензия
Публичная реализация включает модульный набор инструментов с компонентами вроде base_generator, python_coder, google_search, wikipedia_search и web_search. Репозиторий содержит quick-start скрипты для инференса, обучения и бенчмаркинга и распространяется под лицензией MIT. Техническая статья доступна по адресу
https://arxiv.org/pdf/2510.05592
Значение подхода
AgentFlow задаёт ясную и проверяемую структуру для агентов, использующих инструменты, и предоставляет практичный on-policy метод обучения, который связывает итоговую награду за траекторию с обновлениями на уровне токенов. Фокус на обучении только Планировщика в сочетании с модульными инструментами и верификацией повышает надёжность использования инструментов и общую производительность задач, при этом сохраняя остальные компоненты стабильными и прозрачными.