WEB-SHEPHERD: революция в веб-навигации с покадровой оценкой и 10× экономией затрат

Проблемы веб-навигации

Веб-навигация — это обучение машин взаимодействию с сайтами для выполнения задач, таких как поиск, покупки или бронирование услуг. Это требует понимания структуры сайта, целей пользователя и принятия последовательных решений. Динамичность сайтов и необходимость обработки мультимодальной информации (текста и изображений) усложняют задачу.

Ограничения существующих моделей наград

Современные методы в основном используют мультимодальные большие языковые модели (MLLM), например GPT-4o и GPT-4o-mini, для оценки агентов. Эти методы дорогие, медленные и часто неточные, особенно при многошаговых задачах. Как правило, они дают только бинарную обратную связь (успех/неудача), без покадровой оценки, что приводит к ошибкам — повторным действиям или пропущенным шагам, что снижает практическую применимость.

Представляем WEB-SHEPHERD

Исследователи из Университета Ёнсе и Университета Карнеги-Меллона разработали WEB-SHEPHERD — модель наград, специально созданную для веб-навигации. Это первая модель, оценивающая агентов на уровне отдельных шагов с помощью структурированных чек-листов. Также была создана коллекция WEBPRM COLLECTION с 40 000 аннотированных пошаговых задач и бенчмарк WEBREWARDBENCH для оценки моделей наград.

Принцип работы WEB-SHEPHERD

Для каждой задачи WEB-SHEPHERD формирует чек-лист на основе инструкции пользователя (например, «Найти продукт», «Перейти на страницу продукта») и оценивает прогресс агента по этим подзадачам. Модель использует предсказание следующего токена для генерации обратной связи и присваивает награды на основе выполнения чек-листа. Комбинируя вероятности ответов «Да», «Нет» и «В процессе», она обеспечивает детальную оценку каждого шага и целенаправленную обратную связь.

Результаты и эффективность

На бенчмарке WEBREWARDBENCH WEB-SHEPHERD достиг 87,6% по метрике Mean Reciprocal Rank (MRR) и 55% точности траектории при работе с текстом, превзойдя GPT-4o-mini с 47,5% MRR и 0% точности без чек-листов. В среде WebArena-lite модель показала 34,55% успешных задач, что на 10,9 пункта выше GPT-4o-mini в роли оценщика, при этом будучи в 10 раз экономичнее по затратам.

Важность чек-листов и обратной связи

Анализ абляций показал значительное падение производительности при удалении чек-листов или обратной связи, что подтверждает их критическую роль. Примечательно, что мультимодальный ввод не всегда улучшал результаты и иногда добавлял шум.

Влияние на развитие веб-агентов

WEB-SHEPHERD решает ключевую проблему оценки сложных многошаговых действий в веб-навигации, предлагая масштабируемое и экономичное решение. Благодаря подробной покадровой обратной связи агенты могут принимать более точные решения и эффективнее выполнять задачи.

Подробнее о проекте читайте в статье и на GitHub. Это важный шаг вперёд в создании эффективных и точных веб-агентов.