Alibaba представила GUI-Owl и Mobile-Agent-v3: умные агенты для автоматизации интерфейсов

Почему GUI-агенты важны

Графические интерфейсы остаются основным способом взаимодействия с приложениями на мобильных, настольных и веб-платформах. Традиционная автоматизация опирается на хрупкие скрипты и ручные правила, которые легко ломаются при изменениях интерфейса. Новые визуально-языковые модели позволяют создавать агентов, которые видят экран, понимают задачу, планируют шаги и выполняют действия целиком.

GUI-Owl: единая мультимодальная политика

GUI-Owl создавался как end-to-end мультимодальная модель, инициализированная от Qwen2.5-VL и дополнительно обученная на разнообразных данных взаимодействия с GUI. Вместо раздельных модулей для восприятия, планирования и исполнения, GUI-Owl объединяет заземление элементов, рассуждение, планирование и действия в одной нейросети. Это обеспечивает явное многократное рассуждение и согласованные решения в динамичных интерфейсах.

Ключевые возможности:

Mobile-Agent-v3: координация специализированных агентов

Mobile-Agent-v3 использует GUI-Owl как ядро и координирует несколько ролей для выполнения длинных многозадачных сценариев. Фреймворк разбивает задачу на подцели, динамически обновляет план и сохраняет контекст. Главные роли:

Такая организация повышает устойчивость на многозадачных и ошибко-емких сценариях за счет отражения, восстановления и памяти.

Пайплайн обучения и генерации данных

Проблема для GUI-агентов — масштабные качественные данные. Команда разработала саморазвивающийся пайплайн данных:

Также команда синтезирует задачи по заземлению из деревьев доступности и скриншотов, дистиллирует знание планирования из исторических траекторий и больших LLM, и генерирует данные по семантике действий через сравнение скриншотов «до» и «после».

Усиленное обучение и TRPO

GUI-Owl дополняют масштабируемым RL-фреймворком с полной асинхронной тренировкой и вводом Trajectory-aware Relative Policy Optimization (TRPO). TRPO распределяет заслугу по длинным и переменной длины последовательностям действий, что критично для задач с разреженной наградой, где успех виден лишь после завершения всей последовательности.

Результаты на бенчмарках

Модель проверяли на задачах заземления, одноступенчатых решений, вопросов об интерфейсе и полного выполнения задач.

Заземление и понимание UI:

Одноступенчатые решения и рассуждение:

Полные многозадачные сценарии:

Интеграция в реальные системы:

Эти результаты подтверждают широкие возможности заземления и эффективность на длинных сценариях в сочетании с мультиагентной координацией.

Развертывание и набор действий

GUI-Owl поддерживает платформо-специфичные действия: на мобильных устройствах — тап, долгий тап, свайп, ввод текста, системные кнопки и запуск приложений; на десктопе — движение мыши, клики, перетаскивания, прокрутка, ввод с клавиатуры и команды приложений. Действия транслируются в низкоуровневые команды (ADB для Android, pyautogui для десктопа), что упрощает практическое развёртывание.

Агент выполняет прозрачный цикл рассуждения: наблюдение экрана, сжатая история, выбор следующего действия, резюме намерения и выполнение. Явные промежуточные рассуждения облегчают отладку и интеграцию в большие мультиагентные системы.

Значение для автоматизации и исследований

Объединяя восприятие, заземление, рассуждение и действия, а также создав самообучающийся пайплайн, GUI-Owl и Mobile-Agent-v3 делают большой шаг к универсальным автономным GUI-агентам. Открытые результаты модели превосходят многие проприетарные аналоги по ключевым метрикам, открывая практические сценарии для тестирования, автоматизации и помощи пользователю.

Подробности в статье: https://arxiv.org/abs/2508.15144. Репозиторий проекта содержит код, руководства и ноутбуки.