DRBench: реалистичный бенчмарк ServiceNow для корпоративных deep-research агентов

Что такое DRBench

ServiceNow Research представила DRBench — бенчмарк и запускаемую среду для оценки deep-research агентов на реалистичных, открытых корпоративных задачах. В отличие от тестов, ограниченных вебом, DRBench смешивает публичные источники и приватные данные компании, требуя от агентов синтезировать и корректно цитировать факты из разнообразных корпоративных артефактов в виде отчетов.

Состав задач и данных

Первая версия включает 15 задач по 10 корпоративным доменам, таким как продажи, кибербезопасность и соответствие требованиям. Каждая задача задает исследовательский вопрос, контекст задачи с компанией и персонажем, а также набор эталонных инсайтов трех типов: публичные инсайты из стабильных URL, внутренние релевантные инсайты, и внутренние инсайты-отвлечения. Эти инсайты внедрены в реалистичные файлы и приложения, поэтому агентам нужно находить релевантные элементы и игнорировать отвлекающие. Построение датасета сочетает генерацию LLM с человеческой верификацией; всего 114 эталонных инсайтов по всем задачам.

Контейнеризированная корпоративная среда

Ключевое достижение — контейнеризированная среда, эмулирующая часто используемые корпоративные сервисы под аутентификацией и с приложенческими API. Docker-образ DRBench оркестрирует Nextcloud для общих документов и WebDAV, Mattermost для командного чата, Roundcube с SMTP/IMAP для электронной почты, FileBrowser для доступа к файловой системе и VNC/NoVNC для GUI-взаимодействия. Данные распределяются по этим сервисам (документы в Nextcloud и FileBrowser, чаты в каналах Mattermost, письма в почтовой системе), пользователи получают согласованные учетные данные. Агенты могут работать через веб-интерфейсы или программные API. Среда намеренно устроена как игла в стоге сена: релевантные и отвлекающие инсайты внедрены в PDF, DOCX, PPTX, XLSX, чаты и письма и дополнены правдоподобным, но несущественным содержимым.

Метрики оценки

DRBench оценивает агентов по четырем осям, отражающим рабочие процессы аналитика: восстановление инсайтов (Insight Recall), избегание отвлечений (Distractor Avoidance), фактичность и качество отчета. Insight Recall декомпозирует отчет на атомарные инсайты с цитатами и использует LLM-судью для сопоставления с внедренными эталонами, фиксируя recall. Distractor Avoidance штрафует за включение внедренных отвлекающих инсайтов. Фактичность и качество отчета оцениваются по рубрике, указанной в бенчмарке.

Базовый агент и цикл исследования

Авторы предлагают базовый агент DRBench Agent (DRBA), спроектированный для работы в среде DRBench. DRBA состоит из четырех компонентов: планирование исследования, планирование действий, цикл исследования с Adaptive Action Planning (AAP) и написание отчета. Планирование имеет два режима: Complex Research Planning (CRP), который описывает области исследования, ожидаемые источники и критерии успеха, и Simple Research Planning (SRP), который генерирует легковесные подпроекты. Итеративный цикл выбирает инструменты, обрабатывает контент (включая сохранение в векторное хранилище), выявляет пробелы и повторяет работу до завершения или достижения лимита итераций; модуль написания отчета синтезирует выводы с отслеживанием цитат.

Почему это важно для корпоративных агентов

Большинство deep-research агентов демонстрируют убедительные результаты на наборах вопросов, основанных на публичном вебе, но в продакшене критично уметь находить внутренние «иглы», игнорировать правдоподобные внутренние отвлечения и корректно цитировать публичные и приватные источники с учетом корпоративных ограничений вроде логина, прав доступа и UI-трудностей. DRBench закрывает этот разрыв, фиксируя задачи в реалистичных компаниях и персонажах, распределяя доказательства по множеству корпоративных приложений и вебу, и оценивая, действительно ли агент извлек нужные инсайты и написал связный, правдивый отчет. Такой энд-то-энд подход делает бенчмарк практичным инструментом для разработчиков систем.

Основные выводы

Подробности доступны в статье на arXiv и на странице проекта в GitHub.