Как агенты для работы с компьютером превращают экран в пользователя: от браузера к полной ОС-контролю
Что такое агенты для использования компьютера
Агенты для использования компьютера, или GUI-агенты, — это системы на основе моделей зрения и языка, которые видят экран, находят элементы интерфейса и выполняют ограниченный набор действий: клик, ввод текста, прокрутка и комбинации клавиш. Они работают с немодифицированными приложениями и браузерами, генерируя пространственно заякоренные команды, которые переводятся в реальные взаимодействия через хостинговый рантайм или API.
Типичный цикл управления
Рабочий цикл обычно включает четыре шага: (1) захват скриншота и состояния, (2) планирование следующего действия с семантическим и пространственным обоснованием, (3) выполнение действия через ограниченную схему команд, (4) проверка результата и попытки восстановления при ошибке. Поставщики описывают стандартизованные наборы действий и защитные механизмы, а оценочные каркасы унифицируют сравнения.
Бенчмарки и текущие результаты
OSWorld от HKU проверяет выполнение 369 реальных десктопных и веб-задач, включая файловые операции и сценарии с несколькими приложениями. При публикации люди показали 72.36%, а лучший модельный результат был 12.24%. К 2025 году Anthropic сообщает Sonnet 4.5 с 61.4% на OSWorld, что представляет существенный прогресс.
Для живых веб-бенчмарков Google DeepMind Gemini 2.5 Computer Use лидирует по нескольким наборам: Online-Mind2Web 69.0%, WebVoyager 88.9% и AndroidWorld 69.7%. Эти показатели отражают сильную оптимизацию для браузеров, но не гарантируют готовность к управлению на уровне всей операционной системы, где появляются дополнительные режимы ошибок.
Online-Mind2Web включает 300 задач на 136 живых сайтов с верификацией независимыми аудиторами и публичным пространством на Hugging Face, дополняя тесты в VM и execution-based оценки вроде OSWorld.
Компоненты архитектуры
- Восприятие и привязка: периодические скриншоты, OCR и извлечение текста, локализация элементов и вывод координат.
- Планирование: политики для многошаговых действий с возможностью восстановления, часто допатченные или RL-настроенные для UI-контроля.
- Схема действий: ограниченные глаголы типа click_at, type, key_combo, open_app; в задачах часто исключают сочетания, дающие обходные пути.
- Оценочный каркас: песочницы live-web или VM с внешним аудитом и воспроизводимыми скриптами выполнения.
Снимок по компаниям
Anthropic предоставляет Computer Use API и публикует Sonnet 4.5 с акцентом на пиксельную точность привязки, повторы и подтверждения безопасности. Google DeepMind публикует модельную карточку Gemini 2.5 Computer Use с измерениями задержек и мерами безопасности и отмечает браузерную оптимизацию. OpenAI предлагает Operator как исследовательский превью на базе Computer-Using Agent, доступный ограниченно.
Открытые проекты вроде Smol2Operator от Hugging Face дают воспроизводимые рецепты пост-тренировки, которые превращают небольшой VLM в GUI-оператора и помогают лабораториям и стартапам сосредоточиться на повторяемом обучении и общем инструментировании.
Куда двигаться дальше
- Надежность на уровне ОС: диалоги открытия файлов, фокус в нескольких окнах, интерфейсы вне DOM и системные политики создают новые режимы отказов, отсутствующие в агентах, ориентированных только на браузер.
- Задержка: чтобы сохранить ощущение прямого манипулирования, действия должны укладываться в 0.1–1.0 с. Современные стеки часто превышают это из-за затрат на зрение и планирование; решения включают инкрементальное зрение, кэшированный OCR и пакетирование действий.
- Безопасность: веб-контент может пытаться выполнить prompt-injection или вызвать опасные операции. Модельные карточки и развертывания включают allowlist и deny list, подтверждения и типизированные контракты действий для блокировки необратимых шагов.
Практические советы по сборке
Начните с агента, ориентированного на браузер, используя документированную схему действий и верифицированный каркас вроде Online-Mind2Web. Добавьте явные постусловия, визуальную верификацию на экране и планы отката для длинных сценариев. Критически относитесь к метрикам и отдавайте предпочтение аудированным таблицам лидеров и сторонним каркасам над самодекларируемыми скриптами; execution-based оценки повышают воспроизводимость.
Итог
GUI-агенты на базе VLM быстро развиваются: они обеспечивают впечатляющие результаты на веб-задачах и делают заметные шаги в сторону управления ОС. Главные предстоящие задачи — снижение задержки, улучшение привязки на уровне ОС и усиление политик безопасности при сохранении открытости рецептов обучения и оценки.