<НА ГЛАВНУЮ

Оценка корпоративных AI-ассистентов для сложных голосовых рабочих процессов

Salesforce представила комплексный бенчмарк для оценки AI-ассистентов, работающих с сложными голосовыми задачами в здравоохранении, финансах, продажах и электронной коммерции, выявляя текущие вызовы и направления развития.

Необходимость продвинутой оценки AI-ассистентов

С ростом внедрения AI-ассистентов в бизнес стало важно оценивать их эффективность в выполнении реальных голосовых задач. Существующие методы проверки сосредоточены на общих навыках общения или узкоспециализированных задачах, что не позволяет полноценно измерить способности AI в сложных корпоративных рабочих процессах.

Надежная система оценки от Salesforce

Чтобы устранить эти недостатки, команда Salesforce AI Research & Engineering разработала комплексный инструмент оценки AI-агентов для текстовых и голосовых интерфейсов в корпоративной среде. Этот фреймворк поддерживает продукты, такие как Agentforce, и оценивает работу в четырех ключевых областях: управление медицинскими записями, финансовые операции, обработка входящих продаж и выполнение заказов в электронной коммерции.

В основе оценки лежат тщательно проверенные тестовые кейсы, требующие от AI выполнения многошаговых операций, использования специализированных инструментов и соблюдения строгих протоколов безопасности. Цель — воссоздать реальные задачи и вызовы, с которыми сталкиваются AI в профессиональных сферах.

Особенности корпоративной AI-помощи

В отличие от традиционных бенчмарков, ориентированных на общие знания, корпоративные AI-ассистенты должны интегрироваться с множеством инструментов и систем, соблюдать нормы безопасности и разбираться в специализированной терминологии. Голосовое взаимодействие добавляет сложности из-за возможных ошибок распознавания речи, что особенно критично при выполнении многошаговых задач.

Архитектура и возможности фреймворка

Фреймворк Salesforce имеет модульную структуру, включающую:

  • Специализированные доменные среды
  • Предопределенные задачи с четкими целями
  • Смоделированные реалистичные диалоги
  • Метрики для оценки производительности

Оценка проходит в четырех сферах: здравоохранение, финансы, продажи и электронная коммерция. Задачи варьируются от простых запросов до сложных операций с условной логикой и несколькими вызовами систем. Критерии оценки — точность выполнения и эффективность, измеряемая длиной диалога и использованием токенов. Голосовые тесты включают добавление шума для проверки устойчивости.

Реализация на Python поддерживает нескольких поставщиков AI и настраиваемую обработку голоса с компонентами распознавания и синтеза речи. Планируется открытый релиз для расширения возможностей и новых сценариев использования.

Результаты тестирования и планы на будущее

Тестирование моделей GPT-4 и Llama показало, что финансовые задачи вызывают наибольшее количество ошибок из-за строгой проверки. Голосовые задачи показали снижение производительности на 5–8% по сравнению с текстовыми. Многошаговые задачи с условной логикой ухудшили точность. Это указывает на существующие сложности с цепочками вызовов инструментов, соблюдением протоколов и обработкой речи.

Сегодняшние ограничения — отсутствие персонализации, разнообразия поведения пользователей и поддержки нескольких языков. В будущем планируется расширение доменов, внедрение моделирования пользователей и добавление субъективных и многоязычных оценок.

🇬🇧

Switch Language

Read this article in English

Switch to English