Salesforce представляет новые бенчмарки и модели для создания надежных AI-агентов

Борьба с нестабильной работой AI с помощью целевых бенчмарков

Исследователи Salesforce AI выявили проблему, которую называют «зазубренным интеллектом» — непоследовательное поведение AI-агентов при выполнении схожих по сложности задач. Для решения этой проблемы была создана база SIMPLE, включающая 225 вопросов, требующих рассуждений, на которые люди отвечают почти безошибочно, а для языковых моделей они представляют сложность. Это позволяет выявить пробелы в способности моделей обобщать знания.

Вместе с SIMPLE используется ContextualJudgeBench, который оценивает точность и уместность ответов в конкретном контексте, а также способность агента воздерживаться от ответа, если это необходимо. Это особенно важно для областей с высокими требованиями к доверию — юриспруденции, финансам и здравоохранению.

Усиление безопасности и надежности с помощью Trust Layer

Salesforce расширила Trust Layer модельным семейством SFR-Guard, обученным на общих и CRM-данных для выявления инъекций запросов, токсичных ответов и галлюцинаций. Эти модели работают как динамические фильтры в режиме реального времени, обеспечивая безопасность взаимодействия с AI.

Кроме того, CRMArena — это среда симуляции реальных CRM-процессов для проверки работы агентов в сложных корпоративных сценариях, что гарантирует их устойчивость и предсказуемость.

Специализированные модели для рассуждений и действий

Для поддержки более структурированного и целенаправленного поведения агентов Salesforce представила два новых семейства моделей:

xLAM (eXtended Language and Action Models): масштабируемые модели, оптимизированные для работы с инструментами, многократного взаимодействия и вызова функций, предназначенные для внедрения в корпоративной среде с интеграцией API и внутренними базами знаний.
TACO (Thought-and-Action Chain Optimization): модели, улучшающие планирование за счет явного моделирования промежуточных шагов рассуждений и соответствующих действий, идеально подходят для автоматизации документов, аналитики и систем поддержки принятия решений.

Унификация возможностей с Agentforce

Все эти разработки объединены в платформе Agentforce — инструменте Salesforce для создания и развертывания автономных агентов. Agentforce предлагает конструктор агентов без кода, позволяющий разработчикам и экспертам задавать поведение агентов на естественном языке. Платформа интегрируется с экосистемой Salesforce, обеспечивая доступ агентов к данным клиентов, запуск рабочих процессов и аудит.

Исследование Valoir показало, что использование Agentforce позволяет создавать готовых к производству агентов в 16 раз быстрее и повышать точность работы до 75%. Агенты на базе Agentforce наследуют функции безопасности и соответствия нормам Trust Layer Salesforce, что важно для корпоративных решений.

Подход Salesforce к развитию AI-агентов сочетает новые бенчмарки, механизмы безопасности и специализированные архитектуры для создания более надежных, адаптивных и доверенных AI-систем, ориентированных на потребности бизнеса.

Salesforce представляет новые бенчмарки и модели для создания надежных AI-агентов

Борьба с нестабильной работой AI с помощью целевых бенчмарков

Усиление безопасности и надежности с помощью Trust Layer

Специализированные модели для рассуждений и действий

Унификация возможностей с Agentforce

Switch Language