Gemini 2.5 'Computer Use' — превью модели для управления браузером и выполнения UI-действий

Gemini 2.5 ‘Computer Use’ — вариант модели Google AI, разработанный для планирования и выполнения реальных действий в пользовательском интерфейсе в живом браузере. Модель доступна в публичном превью через Google AI Studio и Vertex AI и предоставляет ограниченное API действий, работающее в цикле с клиентским исполнителем.

Что делает модель

Модель генерирует команды в виде функций, например click_at, type_text_at и drag_and_drop. Клиентская сторона (например, Playwright или Browserbase) выполняет эти действия, снимает обновленные скриншоты или URL и возвращает наблюдение модели. Цикл повторяется до завершения задачи или до срабатывания правила безопасности.

Набор действий и расширяемость

По умолчанию модель поддерживает 13 предопределенных UI-действий:

Разработчики могут добавлять собственные функции для небраузерных сценариев или мобильных интерфейсов, такие как open_app, long_press_at или go_home, сохраняя тот же цикл управления.

Как происходит интеграция

Клиенты вызывают инструмент computer_use, который возвращает структурированные вызовы функций. Клиент выполняет предложенное действие, фиксирует новое состояние (скриншот, URL) и передает его модели. Повторяя этот шаг за шагом, агент планирует многошаговые рабочие процессы, а исполнитель обеспечивает соответствие реальной среде и ограничениям.

Производительность и измерения

Google сообщает о показателях на стандартных бенчмарках веб и мобильного управления. Основные данные:

Эти показатели представлены Google и включают компоненты человеческой оценки; относитесь к ним как к отчетам от вендора.

Безопасность, область применения и ограничения

Модель оптимизирована для веб-браузеров и пока не настроена для управления на уровне десктопной ОС. Мобильные сценарии поддерживаются через замену действий. Встроенный монитор безопасности может блокировать запрещенные операции или запрашивать подтверждение пользователя перед высокорисковыми шагами, такими как платежи, отправка сообщений или доступ к конфиденциальным записям.

Ранние производственные сигналы

Ранние пользователи отмечают практические преимущества в тестировании и автоматизации. Google указывает, что их команда платежей восстановила более 60% ранее падавших автоматизированных UI-тестов с помощью модели, а один внешний тестер сообщил, что рабочие процессы стали примерно на 50% быстрее по сравнению с их вторым по качеству вариантом. Эти показатели носят предварительный характер и требуют соответствующей авторской цитаты.

Практические выводы

Gemini 2.5 ‘Computer Use’ — это браузерно-ориентированная модель управления, предназначенная для разработчиков агентов, взаимодействующих с веб-интерфейсами. Она предлагает ограниченный и проверяемый набор действий и клиентский цикл исполнения, что позволяет реализовать реалистичную автоматизацию с пошаговой проверкой безопасности. Команды, работающие с веб-автоматизацией и тестированием UI, могут оценить доступность этой функции в публичном превью через Google AI Studio и Vertex AI.

Для технических деталей, бенчмарков и примеров интеграции см. официальный блог Google и страницу модели.