Alibaba представила GUI-Owl и Mobile-Agent-v3: умные агенты для автоматизации интерфейсов
Почему GUI-агенты важны
Графические интерфейсы остаются основным способом взаимодействия с приложениями на мобильных, настольных и веб-платформах. Традиционная автоматизация опирается на хрупкие скрипты и ручные правила, которые легко ломаются при изменениях интерфейса. Новые визуально-языковые модели позволяют создавать агентов, которые видят экран, понимают задачу, планируют шаги и выполняют действия целиком.
GUI-Owl: единая мультимодальная политика
GUI-Owl создавался как end-to-end мультимодальная модель, инициализированная от Qwen2.5-VL и дополнительно обученная на разнообразных данных взаимодействия с GUI. Вместо раздельных модулей для восприятия, планирования и исполнения, GUI-Owl объединяет заземление элементов, рассуждение, планирование и действия в одной нейросети. Это обеспечивает явное многократное рассуждение и согласованные решения в динамичных интерфейсах.
Ключевые возможности:
- Поиск и заземление UI-элементов по естественным запросам
- Разбиение сложных инструкций на выполнимые шаги
- Понимание семантики действий и их влияния на состояние интерфейса
- Дообучение через сочетание супервизированного обучения и RL с фокусом на успешное выполнение задач
Mobile-Agent-v3: координация специализированных агентов
Mobile-Agent-v3 использует GUI-Owl как ядро и координирует несколько ролей для выполнения длинных многозадачных сценариев. Фреймворк разбивает задачу на подцели, динамически обновляет план и сохраняет контекст. Главные роли:
- Manager: декомпозирует инструкцию и обновляет план
- Worker: выполняет актуальную подцель в текущем состоянии интерфейса
- Reflector: оценивает результат действия и генерирует диагностическую обратную связь
- Notetaker: сохраняет важный контекст, например коды или учетные данные
Такая организация повышает устойчивость на многозадачных и ошибко-емких сценариях за счет отражения, восстановления и памяти.
Пайплайн обучения и генерации данных
Проблема для GUI-агентов — масштабные качественные данные. Команда разработала саморазвивающийся пайплайн данных:
- Генерация запросов: DAG с аннотациями моделирует навигацию и слоты ввода; LLM синтезирует естественные инструкции
- Генерация траекторий: агенты взаимодействуют с виртуальными средами (Android, Ubuntu, macOS, Windows) и создают последовательности действий и состояний
- Оценка корректности траекторий: двухуровневая система критиков проверяет шаги и всю траекторию с использованием мультимодального рассуждения и консенсуса
- Синтез подсказок и итеративное обучение: успешные траектории генерируют пошаговые подсказки и добавляются в обучающую выборку
Также команда синтезирует задачи по заземлению из деревьев доступности и скриншотов, дистиллирует знание планирования из исторических траекторий и больших LLM, и генерирует данные по семантике действий через сравнение скриншотов «до» и «после».
Усиленное обучение и TRPO
GUI-Owl дополняют масштабируемым RL-фреймворком с полной асинхронной тренировкой и вводом Trajectory-aware Relative Policy Optimization (TRPO). TRPO распределяет заслугу по длинным и переменной длины последовательностям действий, что критично для задач с разреженной наградой, где успех виден лишь после завершения всей последовательности.
Результаты на бенчмарках
Модель проверяли на задачах заземления, одноступенчатых решений, вопросов об интерфейсе и полного выполнения задач.
Заземление и понимание UI:
- GUI-Owl-7B и GUI-Owl-32B лидируют среди открытых моделей. На MMBench-GUI L2 GUI-Owl-7B набирает 80.49, GUI-Owl-32B достигает 82.97.
- На ScreenSpot Pro GUI-Owl-7B получает 54.9, превосходя сопоставимые большие модели.
Одноступенчатые решения и рассуждение:
- На MMBench-GUI L1 GUI-Owl-7B показывает 84.5 (easy), 86.9 (medium) и 90.9 (hard).
- На Android Control GUI-Owl-7B достигает 72.8, GUI-Owl-32B — 76.6.
Полные многозадачные сценарии:
- GUI-Owl-7B получает 66.4 на AndroidWorld и 34.9 на OSWorld.
- Mobile-Agent-v3 с ядром GUI-Owl достигает 73.3 и 37.7 соответственно, устанавливая новое открытое состояние искусства.
Интеграция в реальные системы:
- GUI-Owl-32B встраивается в другие агентные фреймворки и показывает 62.1% успеха на AndroidWorld и 48.4% на сложной подвыборке OSWorld.
Эти результаты подтверждают широкие возможности заземления и эффективность на длинных сценариях в сочетании с мультиагентной координацией.
Развертывание и набор действий
GUI-Owl поддерживает платформо-специфичные действия: на мобильных устройствах — тап, долгий тап, свайп, ввод текста, системные кнопки и запуск приложений; на десктопе — движение мыши, клики, перетаскивания, прокрутка, ввод с клавиатуры и команды приложений. Действия транслируются в низкоуровневые команды (ADB для Android, pyautogui для десктопа), что упрощает практическое развёртывание.
Агент выполняет прозрачный цикл рассуждения: наблюдение экрана, сжатая история, выбор следующего действия, резюме намерения и выполнение. Явные промежуточные рассуждения облегчают отладку и интеграцию в большие мультиагентные системы.
Значение для автоматизации и исследований
Объединяя восприятие, заземление, рассуждение и действия, а также создав самообучающийся пайплайн, GUI-Owl и Mobile-Agent-v3 делают большой шаг к универсальным автономным GUI-агентам. Открытые результаты модели превосходят многие проприетарные аналоги по ключевым метрикам, открывая практические сценарии для тестирования, автоматизации и помощи пользователю.
Подробности в статье: https://arxiv.org/abs/2508.15144. Репозиторий проекта содержит код, руководства и ноутбуки.