Оценка AI-агентов: взгляд из отчёта Deep Research Bench

Рост возможностей AI в глубоком исследовании

Большие языковые модели (LLM) стремительно развиваются и уже не ограничиваются простыми фактологическими ответами. Они справляются со сложными многоэтапными задачами, требующими рассуждений, оценки противоречивой информации, поиска данных в интернете и синтеза в связный результат. Крупные лаборатории называют эти функции по-разному: OpenAI — «Deep Research», Anthropic — «Extended Thinking», Google Gemini предлагает «Search + Pro», а Perplexity — «Pro Search» или «Deep Research».

Что такое Deep Research Bench?

Созданный FutureSearch, Deep Research Bench (DRB) — это строгий бенчмарк для оценки AI-агентов на сложных веб-исследовательских задачах. Включает 89 заданий в 8 категориях, таких как поиск числовых данных, проверка утверждений и сбор датасетов. Каждое задание имеет проверенные человеком ответы и оценивается на основе RetroSearch — статического набора веб-страниц для стабильности и справедливости тестирования.

Архитектура ReAct и RetroSearch

DRB использует архитектуру ReAct — «Reason + Act», которая имитирует подход человека: рассуждать, действовать (например, искать в интернете), анализировать результаты и при необходимости повторять. Вместо живого интернета применяется RetroSearch — архив из более 189 000 веб-страниц, позволяющий повторять и сравнивать результаты без влияния изменений в сети.

Производительность AI-агентов

Модель OpenAI o3 заняла первое место с результатом 0.51 из 1.0, что впечатляет с учётом сложности теста и так называемого «шумового потолка» около 0.8. Claude 3.7 Sonnet от Anthropic и Gemini 2.5 Pro от Google также показывают высокие результаты, каждый выделяясь в своих областях. Открытая модель DeepSeek-R1 приятно удивила, соперничая с GPT-4 Turbo и сокращая разрыв между открытыми и закрытыми моделями.

Основные проблемы AI-агентов

Несмотря на успехи, AI сталкиваются с проблемами:

Потеря контекста и забывчивость в длительных сессиях.
Повторяющееся использование одних и тех же инструментов.
Низкое качество формулировки запросов, основанное на простом подборе ключевых слов.
Поспешные выводы, недостаточные по содержанию. Некоторые модели, например GPT-4 Turbo, склонны забывать предыдущие шаги, а DeepSeek-R1 — создавать правдоподобную, но неверную информацию. Часто отсутствует проверка источников, что подчёркивает отставание от опытных исследователей.

Сравнение безинструментальных и инструментальных моделей

DRB также оценил модели без доступа к внешним инструментам — они полагаются только на внутреннюю память. На задачах проверки утверждений такие модели набрали почти тот же балл, что и модели с инструментами, что говорит о сильных внутренних знаниях. Однако на сложных задачах, требующих актуальных данных и комплексного анализа, безинструментальные модели показали слабые результаты, подчёркивая важность доступа к свежей информации.

Перспективы AI в исследовательской работе

Отчёт DRB показывает, что современные AI превосходят средних пользователей в узких задачах, но уступают опытным исследователям в стратегическом планировании, адаптации и глубоком рассуждении. По мере интеграции LLM в профессиональную работу бенчмарки вроде DRB станут важными для оценки не только знаний систем, но и их реальной эффективности в исследовательской деятельности.

Deep Research Bench устанавливает новый стандарт, исследуя взаимодействие инструментов, памяти, рассуждений и адаптации, приближая нас к AI, способным действительно помогать в сложных исследованиях.