Salesforce представляет UAEval4RAG: новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы

Проблема неотвечаемых запросов в RAG-системах

RAG-системы (Retrieval-Augmented Generation) позволяют генерировать ответы без необходимости обширного переобучения моделей. Однако существующие методы оценки сосредоточены на точности и релевантности ответов на вопросы, на которые можно ответить, игнорируя важную способность систем отвергать запросы, на которые ответить невозможно. Это создает риски в реальных приложениях, где неправильные ответы могут привести к дезинформации или вреду.

Текущие бенчмарки для неотвечаемых запросов не подходят для RAG-систем, так как они содержат статичные и общие запросы, не учитывающие специфику конкретных баз знаний. Часто отказ системы от ответа связан с ошибками в поиске, а не с осознанием невозможности ответа, что указывает на пробел в методах оценки.

Существующие исследования и ограничения

Исследования по неотвечаемым запросам выявили проблемы с обработкой неоднозначных и недостаточно определённых вопросов. Оценка RAG-систем продвинулась с помощью методов типа RAGAS и ARES, оценивающих релевантность найденных документов, а также RGB и MultiHop-RAG, ориентированных на точность ответов. Некоторые новые бенчмарки пытаются оценивать способность систем отвергать неотвечаемые запросы, но используют LLM-сгенерированные контексты и ограничиваются одним типом таких запросов, что не позволяет полноценно проверить разнообразие отказов.

Представляем UAEval4RAG

Исследователи Salesforce предложили UAEval4RAG — фреймворк, который автоматически генерирует наборы данных с неотвечаемыми запросами к любой базе знаний и оценивает RAG-системы. Он проверяет как качество ответов на отвечаемые запросы, так и способность отвергать шесть типов неотвечаемых запросов: недостаточно определённые, с ложными предпосылками, бессмысленные, с ограничениями по модальностям, связанные с безопасностью и выходящие за пределы базы данных.

Автоматизированный конвейер создаёт разнообразные и сложные запросы для каждой базы знаний. Оценка проводится с помощью двух метрик на базе LLM — Unanswerable Ratio и Acceptable Ratio.

Всеобъемлющая оценка компонентов RAG

UAEval4RAG изучает влияние различных компонентов RAG: моделей встраивания, методов поиска, переписывания запросов, повторной сортировки, трёх LLM и трёх техник подсказок. Испытания 27 конфигураций на четырёх бенчмарках показали, что нет универсальной настройки из-за различий в распределении знаний. Выбор LLM критичен: например, Claude 3.5 Sonnet улучшил точность на 0.4% и показатель приемлемости отказов на 10.4% по сравнению с GPT-4o.

Дизайн подсказок также значительно влияет, оптимальные подсказки повышают эффективность отклонения неотвечаемых запросов на 80%. Для оценки используются три метрики — Acceptable Ratio, Unanswered Ratio и Joint Score.

Валидация и ключевые выводы

UAEval4RAG эффективно генерирует неотвечаемые запросы с точностью 92% и высокой степенью согласия оценщиков на наборах TriviaQA и Musique. Метрики на базе LLM показывают высокую точность и F1-меру для трёх моделей, подтверждая надежность вне зависимости от базовой модели. Анализ подчеркивает влияние подсказок на контроль галлюцинаций и отказов, а также зависимость производительности от характеристик данных — например, от распространённости ключевых слов и факторов безопасности.

Перспективы развития

Фреймворк закрывает важный пробел, оценивая способность RAG-систем отвергать неотвечаемые запросы. В будущем стоит добавить более разнообразные и проверенные человеком данные для повышения универсальности. Адаптация метрик под конкретные задачи может улучшить эффективность. Сейчас оценка проводится для одношаговых взаимодействий, расширение на многоступенчатые диалоги позволит лучше моделировать реальные ситуации с уточняющими вопросами.

Подробнее можно узнать из оригинальной статьи.

Вся заслуга принадлежит исследователям Salesforce. Подписывайтесь на нас в Twitter, присоединяйтесь к нашему сообществу ML на Reddit с 95 тысячами участников и подписывайтесь на нашу рассылку.