Salesforce AI представляет CRMArena-Pro: первый корпоративный мульти-туровый бенчмарк для LLM-агентов

Сложности оценки AI-агентов в бизнесе

AI-агенты на базе больших языковых моделей (LLM) обладают большим потенциалом для выполнения сложных бизнес-задач, особенно в сфере управления взаимоотношениями с клиентами (CRM). Однако оценить их эффективность в реальных условиях сложно из-за отсутствия публичных и реалистичных бизнес-данных. Существующие бенчмарки часто ориентированы на простые односторонние взаимодействия или узкие задачи, например, обслуживание клиентов, и не охватывают такие области, как продажи, процессы конфигурации и ценообразования (CPQ) и B2B-операции. Кроме того, они не проверяют, насколько хорошо агенты обрабатывают конфиденциальную информацию, что критично для предприятий.

Ограничения предыдущих бенчмарков

Большинство существующих бенчмарков сосредоточены на задачах обслуживания клиентов в B2C-сценариях, игнорируя ключевые бизнес-процессы, такие как продажи и CPQ. Они не учитывают сложности B2B-взаимодействий с длинными циклами продаж. Многие тесты лишены реализма, так как не включают мульти-туровые диалоги и не проходят экспертную проверку сценариев. Отсутствует оценка осведомленности о конфиденциальности, что важно из-за работы с чувствительными данными клиентов и бизнеса. Без этого не решаются вопросы приватности, юридических рисков и доверия.

Представляем CRMArena-Pro

Исследователи Salesforce AI разработали CRMArena-Pro — бенчмарк для реалистичной оценки LLM-агентов, таких как Gemini 2.5 Pro, в профессиональной бизнес-среде. Он включает экспертно проверенные задачи по обслуживанию клиентов, продажам и CPQ, охватывая B2B и B2C-сценарии. Бенчмарк тестирует многотуровые диалоги и проверяет обработку конфиденциальной информации.

Особенности и результаты бенчмарка

CRMArena-Pro построен на синтетических, но структурно точных корпоративных данных, созданных с помощью GPT-4 и основанных на схемах Salesforce. Он моделирует бизнес-среду через песочницу Salesforce Organizations и включает 19 задач, сгруппированных по четырем ключевым навыкам: запросы к базе данных, текстовое рассуждение, выполнение рабочих процессов и соблюдение политик. Включены многотуровые диалоги с имитацией пользователей и проверка осведомленности о конфиденциальности. Эксперты подтвердили реалистичность данных и среды.

В тестировании лучшие LLM-агенты оценивались по выполнению задач и обработке конфиденциальности. Для структурированных ответов использовался exact match, для генеративных — F1. Судья на базе GPT-4o определял, правильно ли модели отказывались раскрывать чувствительную информацию. Модели с продвинутыми возможностями рассуждения, такие как Gemini-2.5-Pro и o1, показывали лучшие результаты, особенно в сложных задачах. Результаты были схожи для B2B и B2C, но зависели от силы модели. Запросы с фокусом на конфиденциальность повышали уровень отказов, но иногда снижали точность выполнения, демонстрируя компромисс между приватностью и производительностью.

Итоги по производительности

Лучшие модели достигали около 58% точности в односторонних задачах, но в многотуровых диалогах показатель падал до 35%. Наиболее успешной областью было выполнение рабочих процессов, где Gemini 2.5 Pro показал свыше 83% точности. В то же время обработка конфиденциальности оставалась серьезной проблемой для всех проверенных моделей. Эти результаты выявляют значительный разрыв между возможностями современных LLM и требованиями корпоративных сценариев.

Дополнительные материалы

Подробности доступны в [статье], [репозитории GitHub], [странице Hugging Face] и [техническом блоге]. Все заслуги принадлежат исследовательской команде Salesforce AI.