Holo1.5: VLM для точной локализации GUI и UI-VQA

Что такое Holo1.5

H Company выпустила Holo1.5 — семейство визуальных базовых моделей, оптимизированных для агентов, работающих с пользовательскими интерфейсами. В серию входят контрольные точки 3B, 7B и 72B. По всем размерам Holo1.5 показывает примерно на 10% выше точность по сравнению с Holo1. Контрольная точка 7B доступна под лицензией Apache-2.0; версии 3B и 72B унаследовали ограничения research-only от своих upstream-баз.

Почему важна точная локализация

Ключевая задача для CU-агента — преобразовать намерение в пиксельное действие. Например, команда ‘Открыть Spotify’ требует предсказать точные координаты кликабельного элемента на экране. Небольшая ошибка в локализации может сорвать многошаговый сценарий. Holo1.5 обучена и тестируется на высоких разрешениях (до 3840×2160) для настольных систем (macOS, Ubuntu, Windows), веба и мобильных интерфейсов, улучшая устойчивость на плотных профессиональных UI с мелкой иконографией.

Подход к обучению и архитектуре

В отличие от общих VLM, ориентированных на широкое grounding и генерацию подписей, Holo1.5 настраивается под задачи CU: крупномасштабное SFT на GUI-задачах с последующим GRPO-подобным обучением с подкреплением для повышения точности координат и надежности решений. Модели позиционируются как компоненты перцепции для встраивания в планировщики и исполнители, а не как end-to-end агенты.

Результаты на бенчмарках

Holo1.5 демонстрирует лидирующие результаты по GUI-grounding на наборах ScreenSpot-v2, ScreenSpot-Pro, GroundUI-Web, Showdown и WebClick. Типичные показатели для 7B (средние по шести трекам локализации):

На ScreenSpot-Pro (плотные профессиональные интерфейсы) Holo1.5-7B достигает 57.94 против 29.00 у Qwen2.5-VL-7B, что демонстрирует заметно лучшую выборку целей в реалистичных условиях. Контрольные точки 3B и 72B показывают схожие относительные преимущества.

Понимание интерфейса (UI-VQA)

Holo1.5 улучшает и UI-VQA: на VisualWebBench, WebSRC и ScreenQA модели дают стабильный прирост точности. Для 7B средние значения примерно 88.17, а у 72B около 90.00. Это критично для надежности агента при вопросах типа ‘Какая вкладка активна?’ или ‘Пользователь вошел в систему?’, позволяя проверять состояние до и после действий.

Сравнение с другими системами

При опубликованных протоколах Holo1.5 превосходит открытые базовые модели (Qwen2.5-VL), конкурентные специализированные системы (UI-TARS, UI-Venus) и показывает преимущества по сравнению с некоторыми закрытыми универсальными моделями на указанных UI-задачах. Тем не менее, протоколы, промпты и разрешения экранов влияют на результаты — рекомендуется воспроизвести тесты на собственной инфраструктуре.

Последствия интеграции

Где размещать Holo1.5 в CU-стеке

Holo1.5 следует рассматривать как слой перцепции экрана. Вход — скриншоты в полном разрешении (опционально с метаданными). Выходы — координаты целей с уровнями уверенности и короткие текстовые ответы о состоянии экрана. Снизу вверх, политики действий преобразуют предсказания в клики и ввод с клавиатуры, а мониторинг проверяет пост-условия и запускает повторы или альтернативы при необходимости.

Практический совет

Если нужен коммерчески применимый базовый компонент, начните с Holo1.5-7B (Apache-2.0), прогоните бенчмарки на ваших экранах и интегрируйте планировщик и слои безопасности вокруг модели.

Ссылки: https://www.hcompany.ai/blog/holo-1-5