WEB-SHEPHERD: революция в веб-навигации с покадровой оценкой и 10× экономией затрат
WEB-SHEPHERD — новая модель наград, значительно улучшающая веб-навигацию за счёт покадровой обратной связи и 10-кратной экономии затрат по сравнению с предыдущими решениями.
Проблемы веб-навигации
Веб-навигация — это обучение машин взаимодействию с сайтами для выполнения задач, таких как поиск, покупки или бронирование услуг. Это требует понимания структуры сайта, целей пользователя и принятия последовательных решений. Динамичность сайтов и необходимость обработки мультимодальной информации (текста и изображений) усложняют задачу.
Ограничения существующих моделей наград
Современные методы в основном используют мультимодальные большие языковые модели (MLLM), например GPT-4o и GPT-4o-mini, для оценки агентов. Эти методы дорогие, медленные и часто неточные, особенно при многошаговых задачах. Как правило, они дают только бинарную обратную связь (успех/неудача), без покадровой оценки, что приводит к ошибкам — повторным действиям или пропущенным шагам, что снижает практическую применимость.
Представляем WEB-SHEPHERD
Исследователи из Университета Ёнсе и Университета Карнеги-Меллона разработали WEB-SHEPHERD — модель наград, специально созданную для веб-навигации. Это первая модель, оценивающая агентов на уровне отдельных шагов с помощью структурированных чек-листов. Также была создана коллекция WEBPRM COLLECTION с 40 000 аннотированных пошаговых задач и бенчмарк WEBREWARDBENCH для оценки моделей наград.
Принцип работы WEB-SHEPHERD
Для каждой задачи WEB-SHEPHERD формирует чек-лист на основе инструкции пользователя (например, «Найти продукт», «Перейти на страницу продукта») и оценивает прогресс агента по этим подзадачам. Модель использует предсказание следующего токена для генерации обратной связи и присваивает награды на основе выполнения чек-листа. Комбинируя вероятности ответов «Да», «Нет» и «В процессе», она обеспечивает детальную оценку каждого шага и целенаправленную обратную связь.
Результаты и эффективность
На бенчмарке WEBREWARDBENCH WEB-SHEPHERD достиг 87,6% по метрике Mean Reciprocal Rank (MRR) и 55% точности траектории при работе с текстом, превзойдя GPT-4o-mini с 47,5% MRR и 0% точности без чек-листов. В среде WebArena-lite модель показала 34,55% успешных задач, что на 10,9 пункта выше GPT-4o-mini в роли оценщика, при этом будучи в 10 раз экономичнее по затратам.
Важность чек-листов и обратной связи
Анализ абляций показал значительное падение производительности при удалении чек-листов или обратной связи, что подтверждает их критическую роль. Примечательно, что мультимодальный ввод не всегда улучшал результаты и иногда добавлял шум.
Влияние на развитие веб-агентов
WEB-SHEPHERD решает ключевую проблему оценки сложных многошаговых действий в веб-навигации, предлагая масштабируемое и экономичное решение. Благодаря подробной покадровой обратной связи агенты могут принимать более точные решения и эффективнее выполнять задачи.
Подробнее о проекте читайте в статье и на GitHub. Это важный шаг вперёд в создании эффективных и точных веб-агентов.
Switch Language
Read this article in English