Salesforce представляет новые бенчмарки и модели для создания надежных AI-агентов
Salesforce AI Research представила новые бенчмарки, модели безопасности и архитектуры для создания более надежных и эффективных AI-агентов для корпоративных задач.
Борьба с нестабильной работой AI с помощью целевых бенчмарков
Исследователи Salesforce AI выявили проблему, которую называют «зазубренным интеллектом» — непоследовательное поведение AI-агентов при выполнении схожих по сложности задач. Для решения этой проблемы была создана база SIMPLE, включающая 225 вопросов, требующих рассуждений, на которые люди отвечают почти безошибочно, а для языковых моделей они представляют сложность. Это позволяет выявить пробелы в способности моделей обобщать знания.
Вместе с SIMPLE используется ContextualJudgeBench, который оценивает точность и уместность ответов в конкретном контексте, а также способность агента воздерживаться от ответа, если это необходимо. Это особенно важно для областей с высокими требованиями к доверию — юриспруденции, финансам и здравоохранению.
Усиление безопасности и надежности с помощью Trust Layer
Salesforce расширила Trust Layer модельным семейством SFR-Guard, обученным на общих и CRM-данных для выявления инъекций запросов, токсичных ответов и галлюцинаций. Эти модели работают как динамические фильтры в режиме реального времени, обеспечивая безопасность взаимодействия с AI.
Кроме того, CRMArena — это среда симуляции реальных CRM-процессов для проверки работы агентов в сложных корпоративных сценариях, что гарантирует их устойчивость и предсказуемость.
Специализированные модели для рассуждений и действий
Для поддержки более структурированного и целенаправленного поведения агентов Salesforce представила два новых семейства моделей:
-
xLAM (eXtended Language and Action Models): масштабируемые модели, оптимизированные для работы с инструментами, многократного взаимодействия и вызова функций, предназначенные для внедрения в корпоративной среде с интеграцией API и внутренними базами знаний.
-
TACO (Thought-and-Action Chain Optimization): модели, улучшающие планирование за счет явного моделирования промежуточных шагов рассуждений и соответствующих действий, идеально подходят для автоматизации документов, аналитики и систем поддержки принятия решений.
Унификация возможностей с Agentforce
Все эти разработки объединены в платформе Agentforce — инструменте Salesforce для создания и развертывания автономных агентов. Agentforce предлагает конструктор агентов без кода, позволяющий разработчикам и экспертам задавать поведение агентов на естественном языке. Платформа интегрируется с экосистемой Salesforce, обеспечивая доступ агентов к данным клиентов, запуск рабочих процессов и аудит.
Исследование Valoir показало, что использование Agentforce позволяет создавать готовых к производству агентов в 16 раз быстрее и повышать точность работы до 75%. Агенты на базе Agentforce наследуют функции безопасности и соответствия нормам Trust Layer Salesforce, что важно для корпоративных решений.
Подход Salesforce к развитию AI-агентов сочетает новые бенчмарки, механизмы безопасности и специализированные архитектуры для создания более надежных, адаптивных и доверенных AI-систем, ориентированных на потребности бизнеса.
Switch Language
Read this article in English