DRBench: реалистичный бенчмарк ServiceNow для корпоративных deep-research агентов
Что такое DRBench
ServiceNow Research представила DRBench — бенчмарк и запускаемую среду для оценки deep-research агентов на реалистичных, открытых корпоративных задачах. В отличие от тестов, ограниченных вебом, DRBench смешивает публичные источники и приватные данные компании, требуя от агентов синтезировать и корректно цитировать факты из разнообразных корпоративных артефактов в виде отчетов.
Состав задач и данных
Первая версия включает 15 задач по 10 корпоративным доменам, таким как продажи, кибербезопасность и соответствие требованиям. Каждая задача задает исследовательский вопрос, контекст задачи с компанией и персонажем, а также набор эталонных инсайтов трех типов: публичные инсайты из стабильных URL, внутренние релевантные инсайты, и внутренние инсайты-отвлечения. Эти инсайты внедрены в реалистичные файлы и приложения, поэтому агентам нужно находить релевантные элементы и игнорировать отвлекающие. Построение датасета сочетает генерацию LLM с человеческой верификацией; всего 114 эталонных инсайтов по всем задачам.
Контейнеризированная корпоративная среда
Ключевое достижение — контейнеризированная среда, эмулирующая часто используемые корпоративные сервисы под аутентификацией и с приложенческими API. Docker-образ DRBench оркестрирует Nextcloud для общих документов и WebDAV, Mattermost для командного чата, Roundcube с SMTP/IMAP для электронной почты, FileBrowser для доступа к файловой системе и VNC/NoVNC для GUI-взаимодействия. Данные распределяются по этим сервисам (документы в Nextcloud и FileBrowser, чаты в каналах Mattermost, письма в почтовой системе), пользователи получают согласованные учетные данные. Агенты могут работать через веб-интерфейсы или программные API. Среда намеренно устроена как игла в стоге сена: релевантные и отвлекающие инсайты внедрены в PDF, DOCX, PPTX, XLSX, чаты и письма и дополнены правдоподобным, но несущественным содержимым.
Метрики оценки
DRBench оценивает агентов по четырем осям, отражающим рабочие процессы аналитика: восстановление инсайтов (Insight Recall), избегание отвлечений (Distractor Avoidance), фактичность и качество отчета. Insight Recall декомпозирует отчет на атомарные инсайты с цитатами и использует LLM-судью для сопоставления с внедренными эталонами, фиксируя recall. Distractor Avoidance штрафует за включение внедренных отвлекающих инсайтов. Фактичность и качество отчета оцениваются по рубрике, указанной в бенчмарке.
Базовый агент и цикл исследования
Авторы предлагают базовый агент DRBench Agent (DRBA), спроектированный для работы в среде DRBench. DRBA состоит из четырех компонентов: планирование исследования, планирование действий, цикл исследования с Adaptive Action Planning (AAP) и написание отчета. Планирование имеет два режима: Complex Research Planning (CRP), который описывает области исследования, ожидаемые источники и критерии успеха, и Simple Research Planning (SRP), который генерирует легковесные подпроекты. Итеративный цикл выбирает инструменты, обрабатывает контент (включая сохранение в векторное хранилище), выявляет пробелы и повторяет работу до завершения или достижения лимита итераций; модуль написания отчета синтезирует выводы с отслеживанием цитат.
Почему это важно для корпоративных агентов
Большинство deep-research агентов демонстрируют убедительные результаты на наборах вопросов, основанных на публичном вебе, но в продакшене критично уметь находить внутренние «иглы», игнорировать правдоподобные внутренние отвлечения и корректно цитировать публичные и приватные источники с учетом корпоративных ограничений вроде логина, прав доступа и UI-трудностей. DRBench закрывает этот разрыв, фиксируя задачи в реалистичных компаниях и персонажах, распределяя доказательства по множеству корпоративных приложений и вебу, и оценивая, действительно ли агент извлек нужные инсайты и написал связный, правдивый отчет. Такой энд-то-энд подход делает бенчмарк практичным инструментом для разработчиков систем.
Основные выводы
- DRBench проверяет агентов на сложных открытых корпоративных задачах, требующих сочетания публичных и приватных данных.
- Релиз охватывает 15 задач в 10 доменах, привязанных к реалистичным персонажам и организационному контексту.
- Задачи включают разнородные артефакты: офисные файлы, облачные хранилища, электронную почту, чат и веб.
- Отчеты оцениваются по восстановлению инсайтов, фактичности и качеству структуры и изложения в отчете.
- Исходный код и материалы бенчмарка выложены в открытом доступе на GitHub для воспроизводимости и расширения.
Подробности доступны в статье на arXiv и на странице проекта в GitHub.