Gemini 2.5 'Computer Use' — превью модели для управления браузером и выполнения UI-действий

Gemini 2.5 'Computer Use' — вариант модели Google AI, разработанный для планирования и выполнения реальных действий в пользовательском интерфейсе в живом браузере. Модель доступна в публичном превью через Google AI Studio и Vertex AI и предоставляет ограниченное API действий, работающее в цикле с клиентским исполнителем.

Что делает модель

Модель генерирует команды в виде функций, например click_at, type_text_at и drag_and_drop. Клиентская сторона (например, Playwright или Browserbase) выполняет эти действия, снимает обновленные скриншоты или URL и возвращает наблюдение модели. Цикл повторяется до завершения задачи или до срабатывания правила безопасности.

Набор действий и расширяемость

По умолчанию модель поддерживает 13 предопределенных UI-действий:

open_web_browser
wait_5_seconds
go_back
go_forward
search
navigate
click_at
hover_at
type_text_at
key_combination
scroll_document
scroll_at
drag_and_drop

Разработчики могут добавлять собственные функции для небраузерных сценариев или мобильных интерфейсов, такие как open_app, long_press_at или go_home, сохраняя тот же цикл управления.

Как происходит интеграция

Клиенты вызывают инструмент computer_use, который возвращает структурированные вызовы функций. Клиент выполняет предложенное действие, фиксирует новое состояние (скриншот, URL) и передает его модели. Повторяя этот шаг за шагом, агент планирует многошаговые рабочие процессы, а исполнитель обеспечивает соответствие реальной среде и ограничениям.

Производительность и измерения

Google сообщает о показателях на стандартных бенчмарках веб и мобильного управления. Основные данные:

Online-Mind2Web (официально): 69.0% pass@1 по результатам голосования экспертов, подтверждено организаторами бенчмарка.
Browserbase matched harness: в приводимых Google данных 65.7% (OM2W) и 79.9% (WebVoyager) при сопоставимых условиях, с лидирующими показателями по точности и задержке.
Трейд-офф задержки и качества: примерно 70%+ точности при медианной задержке около 225 секунд на OM2W в Browserbase, по данным Google.
AndroidWorld (мобильная генерализация): 69.7% по измерениям Google с использованием того же API и кастомных мобильных действий.

Эти показатели представлены Google и включают компоненты человеческой оценки; относитесь к ним как к отчетам от вендора.

Безопасность, область применения и ограничения

Модель оптимизирована для веб-браузеров и пока не настроена для управления на уровне десктопной ОС. Мобильные сценарии поддерживаются через замену действий. Встроенный монитор безопасности может блокировать запрещенные операции или запрашивать подтверждение пользователя перед высокорисковыми шагами, такими как платежи, отправка сообщений или доступ к конфиденциальным записям.

Ранние производственные сигналы

Ранние пользователи отмечают практические преимущества в тестировании и автоматизации. Google указывает, что их команда платежей восстановила более 60% ранее падавших автоматизированных UI-тестов с помощью модели, а один внешний тестер сообщил, что рабочие процессы стали примерно на 50% быстрее по сравнению с их вторым по качеству вариантом. Эти показатели носят предварительный характер и требуют соответствующей авторской цитаты.

Практические выводы

Gemini 2.5 'Computer Use' — это браузерно-ориентированная модель управления, предназначенная для разработчиков агентов, взаимодействующих с веб-интерфейсами. Она предлагает ограниченный и проверяемый набор действий и клиентский цикл исполнения, что позволяет реализовать реалистичную автоматизацию с пошаговой проверкой безопасности. Команды, работающие с веб-автоматизацией и тестированием UI, могут оценить доступность этой функции в публичном превью через Google AI Studio и Vertex AI.

Для технических деталей, бенчмарков и примеров интеграции см. официальный блог Google и страницу модели.