DeepAgent: единый поток мышления, поиск инструментов и выполнение действий

Почему классические агентские циклы устарели

Большинство агентских фреймворков используют заранее заданный цикл Reason, Act, Observe и зависят от фиксированного набора инструментов, переданных в подсказке. Такой подход срабатывает для простых задач, но дает сбои при большом количестве инструментов, длительных задачах или при необходимости менять стратегию в процессе рассуждения. Агент не может динамически обнаруживать новые инструменты и легко теряет контекст при длинных взаимодействиях.

Унифицированное рассуждение и поиск инструментов по запросу

DeepAgent, предложенный исследователями из Университета Жэньминь и Xiaohongshu, объединяет весь агентский цикл в одном потоке рассуждений. Модель может выводить четыре типа действий в тексте: внутренние мысли, поиск инструментов, вызов инструмента и сворачивание памяти. При решении искать инструмент агент обращается к плотному индексу описаний инструментов из больших реестров (например, более 16 000 RapidAPI и около 3 900 ToolHop). В контекст возвращаются только наиболее релевантные инструменты, поэтому доступ к инструментам становится динамичным и не зависит от заранее загруженного списка.

Подробности в статье: https://arxiv.org/pdf/2510.21618

Автономное сворачивание памяти для долгих задач

Длинные последовательности вызовов инструментов, результатов веб-поиска и ответов кода быстро переполняют контекст модели. DeepAgent решает это с помощью автономного шага сворачивания памяти. Когда модель эмитирует токен fold, вспомогательная LLM сжимает полную историю взаимодействия в три типа памяти:

Эпизодическая память: фиксирует события и ключевые результаты задачи.
Рабочая память: хранит текущую подцель и недавние проблемы.
Память инструментов: содержит имена инструментов, аргументы и результаты вызовов.

Эти структурированные сжатые воспоминания возвращаются агенту в виде текстов, богатых информацией, что позволяет продолжать рассуждение без потери важных деталей.

ToolPO: обучение использованию инструментов через RL

Обычное обучение по пометкам не учит надежному использованию инструментов, так как корректные вызовы инструментов — это всего несколько токенов внутри длинной генерации. Команда вводит Tool Policy Optimization (ToolPO). ToolPO выполняет прогоны на LLM-симулированных API, что делает обучение стабильным и дешёвым. Награда атрибутируется конкретным токенам вызова инструмента (token-level tool call advantage attribution) и оптимизируется с использованием обрезанного PPO-подобного критерия. Так агент учится не только вызывать инструменты правильно, но и решать, когда искать инструмент и когда сворачивать память.

Бенчмарки и результаты

Исследователи оценивали DeepAgent на пяти наборах для использования инструментов (ToolBench, API Bank, TMDB, Spotify, ToolHop) и четырёх downstream задачах (ALFWorld, WebShop, GAIA, HLE). В сценарии с метками инструментов DeepAgent 32B RL с бэбоном QwQ 32B показывает сильные результаты: 69.0 на ToolBench, 75.3 на API Bank, 89.0 на TMDB, 75.4 на Spotify и 51.3 на ToolHop. Это лучшие показатели уровня 32B по всем пяти датасетам одновременно, демонстрирующие более равномерную производительность по сравнению с workflow-базовыми подходами.

В реалистичной задаче open-set, где агент сначала должен найти инструменты, а затем вызвать их, DeepAgent 32B RL достигает 64.0 на ToolBench и 40.6 на ToolHop, опережая workflow-бейзлайны (55.0 и 36.2 соответственно). Автономный поиск инструментов улучшает и workflow-агентов, но DeepAgent выигрывает больше, что подтверждает соответствие архитектуры и обучения большим реестрaм инструментов.

На downstream средах под 32B моделью DeepAgent показывает 91.8% успеха на ALFWorld, 34.4% успеха и 56.3 очка на WebShop, 53.3 на GAIA и более высокий результат по сравнению с workflow-агентами на HLE. Длинные и шумные сценарии, по-видимому, выигрывают от сочетания сворачивания памяти и ToolPO.

Практические выводы

DeepAgent — практический шаг к архитектурам агентов, которые не зависят от фиксированных подсказок инструментов. Объединяя непрерывное мышление, плотный поиск по реестрам инструментов, структурированные вызовы инструментов и сворачивание памяти в едином цикле, система делает большие и изменяющиеся наборы инструментов применимыми для LLM-агентов. Использование LLM-симулированных API в ToolPO — инженерный выбор, который решает проблемы задержек и нестабильности предыдущих подходов. В целом, результаты подтверждают, что end-to-end агенты с памятью и RL становятся доминирующим практическим паттерном.

Ресурсы: https://arxiv.org/pdf/2510.21618