Alibaba Tongyi Lab Представляет MAI-UI: Новейшие GUI-Агенты
MAI-UI превосходит конкурентов в мобильных задачах GUI с передовой интеграцией.
Обзор MAI-UI
Alibaba Tongyi Lab выпустила MAI-UI — революционное семейство фундаментальных GUI-агентов. Эта инновационная система интегрирует использование MCP-инструментов, взаимодействие агентов с пользователями, коллаборацию облака и устройства и онлайн обучение с подкреплением (RL), достигая передовых результатов в области базового GUI и мобильной навигации. Важно отметить, что она обходит Gemini 2.5 Pro, Seed 1.8 и UI-Tars-2 на AndroidWorld.
Что такое MAI-UI?
MAI-UI построена на платформе Qwen3 VL, предлагая модели объемом 2B, 8B, 32B и 235B A22B. Она обрабатывает инструкции на естественном языке и визуальные экраны UI, создавая структурированные действия для реального времени на Android. Она включает стандартные операции, такие как клик, пролистывание, ввод текста и нажатие кнопок, а также продвинутые функции для взаимодействия с пользователем и вызовов инструментов MCP.
Совершенные методы привязки GUI
Привязка является критически важной для GUI-агентов, позволяя им преобразовывать свободный текст (например, "открыть настройки месячного учета") в действительные команды. Стратегия MAI-UI основана на концепции UI-Ins, используя многосторонний подход для каждого элемента UI через разнообразные тренировочные данные, что минимизирует влияние неоднозначных инструкций и повышает точность.
Саморазвивающаяся навигационная дата-пайплайн
Навигационный компонент MAI-UI является сложным и использует саморазвивающуюся дата-пайплайн, которая отслеживает контекст пользователей при взаимодействии с различными приложениями. Эта система динамически расширяет свой набор данных, имитируя пользовательские задачи в Android-средах и оценивая производительность с помощью модельного судьи, который фильтрует эффективные траектории для обучения.
Онлайн обучение с подкреплением в действии
Для адаптации к быстро меняющимся мобильным средам MAI-UI использует онлайн RL-структуру, которая взаимодействует напрямую с контейнеризованными виртуальными устройствами Android. Эта структура масштабируема и демонстрирует значительные улучшения производительности с увеличением числа параллельных сред и продлением шагов выполнения задач.
Ключевые метрики производительности
- Точность привязки: MAI-UI достигает 73.5% точности на ScreenSpot Pro и занимает высокие позиции на других бенчмарках.
- Успех на MobileWorld: حصلت على 41.7% إجمالي نجاح في معيار MobileWorld, متجاوزة حلول GUI الرائدة من طرف إلى طرف.
- Масштабируемое обучение: Система RL показывает, что масштабирование сред приводит к значительному увеличению успеха навигации.
Выводы
MAI-UI выделяется как универсальное решение для мобильных задач GUI, благодаря интеграции передовых технологий для улучшения взаимодействия с пользователем и принятия решений. Ее инновационная архитектура является значительным шагом вперед к достижению динамических развертываний мобильной реальности.
Switch Language
Read this article in English