Оценка корпоративных AI-ассистентов для сложных голосовых рабочих процессов
Salesforce представила комплексный бенчмарк для оценки AI-ассистентов, работающих с сложными голосовыми задачами в здравоохранении, финансах, продажах и электронной коммерции, выявляя текущие вызовы и направления развития.
Необходимость продвинутой оценки AI-ассистентов
С ростом внедрения AI-ассистентов в бизнес стало важно оценивать их эффективность в выполнении реальных голосовых задач. Существующие методы проверки сосредоточены на общих навыках общения или узкоспециализированных задачах, что не позволяет полноценно измерить способности AI в сложных корпоративных рабочих процессах.
Надежная система оценки от Salesforce
Чтобы устранить эти недостатки, команда Salesforce AI Research & Engineering разработала комплексный инструмент оценки AI-агентов для текстовых и голосовых интерфейсов в корпоративной среде. Этот фреймворк поддерживает продукты, такие как Agentforce, и оценивает работу в четырех ключевых областях: управление медицинскими записями, финансовые операции, обработка входящих продаж и выполнение заказов в электронной коммерции.
В основе оценки лежат тщательно проверенные тестовые кейсы, требующие от AI выполнения многошаговых операций, использования специализированных инструментов и соблюдения строгих протоколов безопасности. Цель — воссоздать реальные задачи и вызовы, с которыми сталкиваются AI в профессиональных сферах.
Особенности корпоративной AI-помощи
В отличие от традиционных бенчмарков, ориентированных на общие знания, корпоративные AI-ассистенты должны интегрироваться с множеством инструментов и систем, соблюдать нормы безопасности и разбираться в специализированной терминологии. Голосовое взаимодействие добавляет сложности из-за возможных ошибок распознавания речи, что особенно критично при выполнении многошаговых задач.
Архитектура и возможности фреймворка
Фреймворк Salesforce имеет модульную структуру, включающую:
- Специализированные доменные среды
- Предопределенные задачи с четкими целями
- Смоделированные реалистичные диалоги
- Метрики для оценки производительности
Оценка проходит в четырех сферах: здравоохранение, финансы, продажи и электронная коммерция. Задачи варьируются от простых запросов до сложных операций с условной логикой и несколькими вызовами систем. Критерии оценки — точность выполнения и эффективность, измеряемая длиной диалога и использованием токенов. Голосовые тесты включают добавление шума для проверки устойчивости.
Реализация на Python поддерживает нескольких поставщиков AI и настраиваемую обработку голоса с компонентами распознавания и синтеза речи. Планируется открытый релиз для расширения возможностей и новых сценариев использования.
Результаты тестирования и планы на будущее
Тестирование моделей GPT-4 и Llama показало, что финансовые задачи вызывают наибольшее количество ошибок из-за строгой проверки. Голосовые задачи показали снижение производительности на 5–8% по сравнению с текстовыми. Многошаговые задачи с условной логикой ухудшили точность. Это указывает на существующие сложности с цепочками вызовов инструментов, соблюдением протоколов и обработкой речи.
Сегодняшние ограничения — отсутствие персонализации, разнообразия поведения пользователей и поддержки нескольких языков. В будущем планируется расширение доменов, внедрение моделирования пользователей и добавление субъективных и многоязычных оценок.
Switch Language
Read this article in English