WALT: Превращение возможностей сайтов в переиспользуемые инструменты для LLM-агентов
Что делает WALT
WALT (Web Agents that Learn Tools) — фреймворк от Salesforce AI Research, который восстанавливает скрытую функциональность сайтов и превращает её в стабильные, переиспользуемые инструменты. Вместо управления веб-агентами через длинные последовательности кликов WALT выделяет вызываемые операции вроде search, filter, sort, post_comment и create_listing. Такие инструменты уменьшают зависимость от пошагового свободного рассуждения больших языковых моделей и повышают детерминированность выполнения.
Двухфазный конвейер: discovery и construction
WALT работает в двух фазах: discovery и construction с валидацией. На этапе discovery система офлайн исследует сайт и предлагает кандидаты на инструменты, сопоставимые с типичными задачами — поиск, управление контентом, коммуникации. На этапе construction WALT преобразует трассы взаимодействий в детерминированные скрипты, стабилизирует селекторы, по возможности проводит URL promotion, выводит входные схемы и прогоняет end-to-end проверки. В систему регистрируются только те инструменты, которые прошли валидацию. Подготовительная работа смещается в сторону надёжных URL и операций с формами, а агентная логика применяется лишь где это действительно необходимо.
Как представлены инструменты
Каждый инструмент несёт контракт в виде схемы и примеров использования. Инструменты инкапсулируют навигацию, выбор элементов, извлечение данных и опциональные ограниченные агентные шаги, например ожидание загрузки или извлечение контента. Во время выполнения агент составляет небольшую программу из нескольких вызовов инструментов, что обеспечивает более высокий процент успеха при меньшем числе шагов и делает поведение предсказуемее по сравнению с длинными цепочками кликов.
Результаты на бенчмарках
WALT оценивали на VisualWebArena и WebArena. На VisualWebArena средний успех составляет 52.9 процента: 64.1 процента на Classifieds, 53.4 процента на Shopping и 39.0 процента на Reddit. В статье указаны базовые методы, например SGV с 50.2 процента и ExaCT с 33.7 процентами; человеческая производительность — 88.7 процента в среднем.
На WebArena WALT достигает 50.1 процента в среднем по задачам GitLab, Map, Shopping, CMS, Reddit и Multi. Метод опережает предыдущие подходы примерно на девять пунктов относительно лучшего skill induction baseline, при человеческой производительности 78.2 процента.
Эффективность и аблации
Тулизация сокращает число действий примерно в 1.4 раза по сравнению с сопоставимым агентом без инструментов. На разделе Classifieds использование инструментов стабильно увеличивает успех для разных бэконов агентов. WALT с GPT 5 mini показывает на 7 процентов выше успех и на 27 процентов меньше шагов, тогда как стратегия с человеческой демонстрацией достигает 66.0 процента успеха. Полностью автономный WALT достигает 64.1 процента при на 5 процентов меньшем числе шагов, чем в случае демонстрации человеком. Дополнительные компоненты дают измеримые улучшения: мультимодальный парсинг DOM добавляет 2.6 процента абсолютного выигрыша, внешняя верификация даёт +3.3 процента, но требует большего числа проверок. В сумме WALT демонстрирует около 21.3 процента меньше шагов по сравнению с базовыми политиками.
Выборы в дизайне, направленные на детерминизм
WALT отдаёт приоритет операциям на уровне URL, когда поиск и фильтрация могут быть выражены параметрами запроса или маршрутами. Если необходима динамическая привязка, в скрипт инструмента вставляются ограниченные агентные шаги вроде извлечения содержимого или ожидания загрузки страницы. Стабилизация селекторов и проверка схем снижают дрейф при изменениях в макетах сайтов, а наборы обнаруженных инструментов минимизируют долю агентных операций и склоняются к детерминированным действиям: навигация, ввод данных, клики.
Практические детали и доступность
Релиз включает CLI с командами вроде walt discover и walt agent, а также MCP serving для интеграции. Статья и исходный код доступны по ссылке на arXiv и на странице GitHub, где можно найти туториалы, ноутбуки и примеры.