Оценка корпоративных AI-ассистентов для сложных голосовых рабочих процессов

Необходимость продвинутой оценки AI-ассистентов

С ростом внедрения AI-ассистентов в бизнес стало важно оценивать их эффективность в выполнении реальных голосовых задач. Существующие методы проверки сосредоточены на общих навыках общения или узкоспециализированных задачах, что не позволяет полноценно измерить способности AI в сложных корпоративных рабочих процессах.

Надежная система оценки от Salesforce

Чтобы устранить эти недостатки, команда Salesforce AI Research & Engineering разработала комплексный инструмент оценки AI-агентов для текстовых и голосовых интерфейсов в корпоративной среде. Этот фреймворк поддерживает продукты, такие как Agentforce, и оценивает работу в четырех ключевых областях: управление медицинскими записями, финансовые операции, обработка входящих продаж и выполнение заказов в электронной коммерции.

В основе оценки лежат тщательно проверенные тестовые кейсы, требующие от AI выполнения многошаговых операций, использования специализированных инструментов и соблюдения строгих протоколов безопасности. Цель — воссоздать реальные задачи и вызовы, с которыми сталкиваются AI в профессиональных сферах.

Особенности корпоративной AI-помощи

В отличие от традиционных бенчмарков, ориентированных на общие знания, корпоративные AI-ассистенты должны интегрироваться с множеством инструментов и систем, соблюдать нормы безопасности и разбираться в специализированной терминологии. Голосовое взаимодействие добавляет сложности из-за возможных ошибок распознавания речи, что особенно критично при выполнении многошаговых задач.

Архитектура и возможности фреймворка

Фреймворк Salesforce имеет модульную структуру, включающую:

Специализированные доменные среды
Предопределенные задачи с четкими целями
Смоделированные реалистичные диалоги
Метрики для оценки производительности

Оценка проходит в четырех сферах: здравоохранение, финансы, продажи и электронная коммерция. Задачи варьируются от простых запросов до сложных операций с условной логикой и несколькими вызовами систем. Критерии оценки — точность выполнения и эффективность, измеряемая длиной диалога и использованием токенов. Голосовые тесты включают добавление шума для проверки устойчивости.

Реализация на Python поддерживает нескольких поставщиков AI и настраиваемую обработку голоса с компонентами распознавания и синтеза речи. Планируется открытый релиз для расширения возможностей и новых сценариев использования.

Результаты тестирования и планы на будущее

Тестирование моделей GPT-4 и Llama показало, что финансовые задачи вызывают наибольшее количество ошибок из-за строгой проверки. Голосовые задачи показали снижение производительности на 5–8% по сравнению с текстовыми. Многошаговые задачи с условной логикой ухудшили точность. Это указывает на существующие сложности с цепочками вызовов инструментов, соблюдением протоколов и обработкой речи.