Глубокие исследовательские агенты: революция в автономных исследованиях на базе продвинутых LLM

Что такое глубокие исследовательские агенты?

Команда исследователей из Университета Ливерпуля, Huawei Noah’s Ark Lab, Оксфордского университета и Университетского колледжа Лондона представила новую концепцию — глубокие исследовательские агенты (DR агенты). Эти системы, основанные на больших языковых моделях (LLM), предназначены для решения сложных и долгосрочных задач, требующих динамического мышления, адаптивного планирования, многократного использования инструментов и структурированных аналитических результатов.

Ограничения предыдущих систем

Ранее LLM-системы в основном занимались фактологическим поиском или одношаговым рассуждением. Методы Retrieval-Augmented Generation (RAG) улучшили качество фактической информации, а такие инструменты, как FLARE и Toolformer, обеспечили базовое использование инструментов. Однако эти модели не могли адаптироваться в реальном времени, глубоко анализировать или расширяться модульно. Им было трудно сохранять когерентность в длинных контекстах и эффективно работать с многошаговым поиском.

Архитектурные инновации DR агентов

Глубокие исследовательские агенты решают эти проблемы с помощью нескольких ключевых новшеств:

Классификация рабочих процессов: различие между статическими (ручными, фиксированными) и динамическими (адаптивными, в реальном времени) процессами исследования.
Протокол контекста модели (MCP): стандартизированный интерфейс для безопасного и последовательного взаимодействия с внешними инструментами и API.
Протокол агент-агент (A2A): обеспечивает децентрализованную и структурированную коммуникацию между агентами для совместного выполнения задач.
Гибридные методы поиска: объединение структурированного поиска через API и неструктурированного поиска через браузер.
Мультимодальное использование инструментов: интеграция выполнения кода, аналитики, мультимодальной генерации и оптимизации памяти прямо в цикле вывода.

Процесс исследования

DR агенты обрабатывают запросы с помощью многоэтапного процесса:

Понимание намерений с использованием стратегий планирования.
Поиск через API (например, arXiv, Википедия, Google) и браузер.
Вызов инструментов через MCP для скриптинга, аналитики или обработки медиа.
Структурированная отчетность с доказательственными сводками, таблицами и визуализациями. Механизмы памяти, такие как векторные базы данных, графы знаний и структурированные хранилища, помогают управлять длинным контекстом и снижать избыточность.

Преимущества по сравнению с традиционными моделями

В отличие от статичных RAG-систем, DR агенты:

Выполняют многоэтапное планирование с меняющимися целями.
Динамически адаптируют стратегии поиска.
Координируют работу нескольких специализированных агентов.
Используют асинхронные и параллельные процессы. Это обеспечивает более согласованное, масштабируемое и гибкое выполнение исследовательских задач.

Промышленные реализации

Ведущие компании внедрили DR агентов:

OpenAI DR: использует модель o3 с динамическими рабочими процессами на основе обучения с подкреплением и мультимодальным поиском.
Gemini DR: построен на Gemini-2.0 Flash с поддержкой больших контекстов и асинхронного управления задачами.
Grok DeepSearch: применяет разреженное внимание, поиск через браузер и защищенную среду выполнения.
Perplexity DR: реализует итеративный веб-поиск с гибридной оркестрацией LLM.
Microsoft Researcher & Analyst: интегрируют модели OpenAI в Microsoft 365 для безопасных и специализированных рабочих процессов.

Оценка и бенчмарки

DR агенты тестируются на QA-бенчмарках (HotpotQA, GPQA, 2WikiMultihopQA, TriviaQA) и сложных исследовательских задачах (MLE-Bench, BrowseComp, GAIA, HLE). Оцениваются глубина поиска, точность инструментов, когерентность рассуждений и качество отчетности. Агент DeepResearcher и SimpleDeepSearcher стабильно показывают лучшие результаты.

Часто задаваемые вопросы

В1: Что такое глубокие исследовательские агенты? Это автономные системы на базе LLM, которые выполняют многозадачное исследование с динамическим планированием и интеграцией инструментов.

В2: Чем DR агенты лучше RAG-моделей? Они поддерживают адаптивное планирование, многошаговый поиск, итеративное использование инструментов и генерацию отчетов в реальном времени.

В3: Какие протоколы используются? MCP для взаимодействия с инструментами и A2A для коммуникации между агентами.

В4: Готовы ли эти системы к промышленному использованию? Да, их уже применяют OpenAI, Google, Microsoft и другие.

В5: Как оценивается их производительность? С помощью QA и задач на выполнение с использованием различных бенчмарков.

Подробности доступны в оригинальной статье исследования.