GTA1 от Salesforce устанавливает новый стандарт GUI-агентов, превосходя OpenAI CUA

Представляем GTA1: прорыв в технологии GUI-агентов

Исследовательская команда Salesforce AI представила GTA1 — новый графический агент пользовательского интерфейса, способный автономно работать в реальных операционных системах, включая Linux. GTA1 решает две ключевые задачи развития GUI-агентов: неоднозначное планирование задач и неточное выполнение действий. С результатом 45,2% успешного выполнения задач на бенчмарке OSWorld GTA1 превосходит OpenAI CUA и устанавливает новый стандарт среди открытых моделей.

Основные проблемы GUI-агентов

GUI-агенты преобразуют высокоуровневые инструкции в последовательности действий — клики, нажатия клавиш, взаимодействия с интерфейсом — и отслеживают изменения UI для планирования следующих шагов. Основные сложности — неоднозначность планирования, так как одна задача может быть выполнена разными способами с разной эффективностью, и точность привязки действий к конкретным координатам GUI, что сложно в динамичных и высокодетализированных интерфейсах.

Инновации в планировании с помощью масштабирования во время выполнения

GTA1 внедряет масштабирование во время выполнения (test-time scaling): вместо выбора одного действия агент одновременно генерирует несколько вариантов, которые оценивает мультимодальная модель-судья, часто большой языковой моделью (LLM). Такой подход позволяет избегать преждевременных решений и лучше исследовать варианты выполнения задач без необходимости моделирования будущих шагов, что невозможно из-за необратимости действий в GUI. Метод универсален и хорошо масштабируется с ростом сложности и пространства действий.

Усиление точности действий с помощью обучения с подкреплением

В отличие от предыдущих моделей, которые использовали обучение с учителем для предсказания центра UI-элементов, GTA1 применяет обучение с подкреплением на основе Group Relative Policy Optimization (GRPO). Агент получает награду только если клик сделан внутри правильного элемента, что позволяет напрямую учиться точному позиционированию. Это устраняет необходимость в промежуточных рассуждениях или предсказаниях рамок и значительно повышает точность, особенно в статичных интерфейсах.

Результаты на бенчмарках

OSWorld (успешность задач): GTA1-7B достигает 45,2%, опережая OpenAI CUA (42,9%) и Claude 3.7 (28,0%).
ScreenSpot-Pro (точность позиционирования): GTA1-7B набирает 50,1%, превосходя UGround-72B (34,5%).
ScreenSpot-V2 (кроссплатформенное позиционирование): GTA1-72B достигает 94,8%, почти сравним с лучшими проприетарными моделями.
OSWorld-G (привязка в Linux GUI): GTA1-7B достигает 67,7%, лидируя среди открытых решений. Эти результаты подтверждают эффективность новшеств GTA1 в планировании и позиционировании.

Дополнительные особенности дизайна

Качество данных повышается за счет фильтрации несоответствующих аннотаций из наборов Aria-UI и OS-Atlas с помощью OmniParser. Модель эффективно масштабируется от 7B до 72B параметров, при этом GTA1-7B обеспечивает оптимальный баланс между производительностью и вычислительными ресурсами. Мультимодальная модель-судья многоразова и часто совпадает с LLM, используемой для планирования, что снижает вычислительные затраты.

GTA1 демонстрирует модульную, упрощённую архитектуру с разнообразным планированием и точным обучением с подкреплением, которая расширяет возможности GUI-агентов и открывает новые горизонты взаимодействия с цифровыми интерфейсами.

Подробности доступны в статье, репозиториях кода и моделях. Следите за Salesforce AI в Twitter, YouTube и Spotify, присоединяйтесь к их ML-сообществу с более чем 100 тысячами подписчиков на Reddit и подписывайтесь на их рассылку.