ComputerRL: гибридная API-GUI платформа Zhipu AI для автономных агентoв рабочего стола

Новое направление для десктоп-агентов

Zhipu AI представила ComputerRL — фреймворк, который сочетает программные API и прямые GUI-взаимодействия, позволяя агентам эффективно работать в сложных настольных средах. Основная цель — устранить разрыв между интерфейсами, ориентированными на людей, и удобными для машин способами управления.

Парадигма API-GUI

ComputerRL предлагает гибридную парадигму API-GUI. Вместо того чтобы полностью полагаться на медленные и хрупкие симуляции кликов и прокруток, агенты могут выполнять программные вызовы API там, где это возможно, и прибегать к GUI-действиям в остальных случаях. Такой подход сочетает точность API с гибкостью GUI и повышает общий потенциал автоматизации.

Автоматическая генерация API с помощью LLM

Фреймворк автоматизирует создание API с помощью больших языковых моделей. На основе примеров задач система анализирует требования, реализует API через подходящие Python-библиотеки и генерирует тесты. В результате получаются переиспользуемые универсальные API для настольных приложений. В качестве примеров приведены интеграции для Ubuntu-приложений, таких как GIMP и LibreOffice, что позволяет выполнять обработку изображений и форматирование документов с меньшим числом шагов по сравнению с GUI-only методами.

Масштабируемая инфраструктура для обучения RL

Для обучения десктоп-агентов в больших масштабах требуется эффективная виртуализация. ComputerRL решает эту задачу через распределенную инфраструктуру RL на базе Docker и gRPC, позволяющую запускать тысячи параллельных Ubuntu-VM. Ключевые компоненты включают qemu-in-docker для легких VM, многозвенную кластеризацию и веб-интерфейс мониторинга. Совместно с AgentRL это обеспечивает полностью асинхронное обучение, разделяющее сбор данных и обновление параметров для повышения пропускной способности и снижения узких мест.

Entropulse: чередование фаз обучения для сохранения исследования

Чтобы избежать коллапса энтропии, когда агенты теряют способность исследовать, ComputerRL использует Entropulse. Метод чередует фазы RL с контролируемой супервизорной дообучкой на успешных траекториях. Пайплайн начинается с behavior cloning на разнообразных траекториях от нескольких LLM, затем применяется шаговый Group Relative Policy Optimization с правил-ориентированными наградами, а Entropulse периодически подбирает качественные траектории для SFT, восстанавливая исследовательское поведение.

Эксперименты на OSWorld

Zhipu адаптировала открытые модели, такие как GLM-4-9B-0414 и Qwen2.5-14B, в семейство AutoGLM-OS. На бенчмарке OSWorld AutoGLM-OS-9B достиг успеха в 48.1%, превзойдя закрытые решения вроде OpenAI’s CUA o3 (42.9%) и Claude 4.0 (30.7%). Парадигма API-GUI дала прирост в 134% по сравнению с GUI-only базой в ряде офисных и профессиональных сценариев. Абляции показывают, что поведенческое клонирование обеспечивает хорошую инициализацию, а фазы RL с Entropulse дают значительные дополнительные улучшения.

Практические примеры и существующие проблемы

Кейс-стади включают создание таблиц сводки продаж в LibreOffice Calc и генерацию системных отчетов через Terminal. Анализ ошибок выявляет проблемы с визуальным восприятием и координацией между приложениями как главные причины сбоев, что указывает на необходимость улучшений в мультимодальном восприятии и иерархическом планировании.

Дальнейшие шаги для автономии рабочего стола

ComputerRL прокладывает путь к более способным десктоп-агентам, сочетая масштабируемую инфраструктуру RL с прагматичной парадигмой взаимодействия. В перспективе ожидаются расширение разнообразия тренировочных данных, интеграция мультимодальных сенсоров, разработка иерархического планирования и внедрение механизмов безопасности, таких как управление разрешениями и проверка действий.

Полные технические детали доступны в статье на arXiv и на GitHub проекта для руководств, кода и ноутбуков.