WebChoreArena: Новый уровень тестирования AI-агентов с задачами на память и многопроцессное мышление

Рост популярности веб-автоматизации

Веб-автоматизационные агенты привлекают всё больше внимания в сфере искусственного интеллекта благодаря способности выполнять человекоподобные действия в цифровой среде. Эти агенты имитируют взаимодействие с веб-сайтами через графические интерфейсы пользователя — кликают, вводят текст и переходят между страницами. Такой подход позволяет работать без специальных API, которые часто недоступны или ограничены, обеспечивая универсальность на разных веб-доменах.

Необходимость сложных тестов

С развитием крупных языковых моделей агенты научились не только читать веб-контент, но и рассуждать, планировать и выполнять сложные действия. Однако существующие бенчмарки в основном проверяют простое серфингование и не учитывают задачи, требующие памяти, многоступенчатого мышления и логики, которые отражают реальные рутинные цифровые задачи.

Ограничения предыдущих бенчмарков

Ранее WebArena предоставлял воспроизводимые задачи на нескольких имитируемых сайтах, но преимущественно проверял базовые навыки просмотра страниц. Другие проекты, такие как Mind2Web, GAIA и MMIn, имели свои плюсы, но страдали от недостаточной интерактивности, узкой направленности или проблем с воспроизводимостью. Это создавало пробел в оценке реальных возможностей агентов.

Представляем WebChoreArena

Исследователи из Университета Токио создали WebChoreArena, расширяя структуру WebArena и добавляя 532 новых, более сложных задания. Они охватывают задачи по сбору данных, запоминанию, многоступенчатому рассуждению и другие, что делает тест максимально приближенным к реальным сценариям.

Категории заданий и типы ввода

Задания делятся на четыре категории:

Massive Memory (117 заданий): извлечение и запоминание больших объёмов информации, например, список клиентов с крупными сделками.
Calculation (132 задания): арифметические операции, например, определение месяцев с наибольшими расходами.
Long-Term Memory (127 заданий): связывание информации с разных страниц, например, применение правил ценообразования.
Others (65 заданий): разнообразные задачи, например, назначение меток в GitLab.

Большинство заданий можно решать с любым типом наблюдений, часть требует только текст, а некоторые — только изображения.

Оценка с использованием ведущих моделей и агентов

Тестирование проводилось с GPT-4o, Claude 3.7 Sonnet и Gemini 2.5 Pro совместно с агентами AgentOccam и BrowserGym. Результаты показали значительное снижение точности по сравнению с предыдущими бенчмарками:

GPT-4o набрал лишь 6.8% точности на WebChoreArena против 42.8% на WebArena.
Лучший результат у Gemini 2.5 Pro — 44.9%, что свидетельствует о текущих ограничениях при решении сложных задач.

WebChoreArena также лучше выявляет различия в производительности моделей, что делает его важным инструментом для развития технологий.

Основные выводы

532 задания с разнообразными категориями и сайтами обеспечивают широкий охват.
117 шаблонов заданий и более 300 часов разметки гарантируют стандартизацию и воспроизводимость.
Методы оценки включают сравнение строк, URL и структуры HTML.

WebChoreArena устраняет разрыв между простым просмотром и сложным мышлением, памятью и логикой, необходимыми для реальной автоматизации веб-задач. Этот бенчмарк задаёт новый стандарт для оценки веб-агентов и стимулирует развитие более практичных и эффективных решений.

Подробности доступны в [статье], на [GitHub] и [странице проекта].