Holo1.5: VLM для точной локализации GUI и UI-VQA
Что такое Holo1.5
H Company выпустила Holo1.5 — семейство визуальных базовых моделей, оптимизированных для агентов, работающих с пользовательскими интерфейсами. В серию входят контрольные точки 3B, 7B и 72B. По всем размерам Holo1.5 показывает примерно на 10% выше точность по сравнению с Holo1. Контрольная точка 7B доступна под лицензией Apache-2.0; версии 3B и 72B унаследовали ограничения research-only от своих upstream-баз.
Почему важна точная локализация
Ключевая задача для CU-агента — преобразовать намерение в пиксельное действие. Например, команда ‘Открыть Spotify’ требует предсказать точные координаты кликабельного элемента на экране. Небольшая ошибка в локализации может сорвать многошаговый сценарий. Holo1.5 обучена и тестируется на высоких разрешениях (до 3840×2160) для настольных систем (macOS, Ubuntu, Windows), веба и мобильных интерфейсов, улучшая устойчивость на плотных профессиональных UI с мелкой иконографией.
Подход к обучению и архитектуре
В отличие от общих VLM, ориентированных на широкое grounding и генерацию подписей, Holo1.5 настраивается под задачи CU: крупномасштабное SFT на GUI-задачах с последующим GRPO-подобным обучением с подкреплением для повышения точности координат и надежности решений. Модели позиционируются как компоненты перцепции для встраивания в планировщики и исполнители, а не как end-to-end агенты.
Результаты на бенчмарках
Holo1.5 демонстрирует лидирующие результаты по GUI-grounding на наборах ScreenSpot-v2, ScreenSpot-Pro, GroundUI-Web, Showdown и WebClick. Типичные показатели для 7B (средние по шести трекам локализации):
- Holo1.5-7B: 77.32
- Qwen2.5-VL-7B: 60.73
На ScreenSpot-Pro (плотные профессиональные интерфейсы) Holo1.5-7B достигает 57.94 против 29.00 у Qwen2.5-VL-7B, что демонстрирует заметно лучшую выборку целей в реалистичных условиях. Контрольные точки 3B и 72B показывают схожие относительные преимущества.
Понимание интерфейса (UI-VQA)
Holo1.5 улучшает и UI-VQA: на VisualWebBench, WebSRC и ScreenQA модели дают стабильный прирост точности. Для 7B средние значения примерно 88.17, а у 72B около 90.00. Это критично для надежности агента при вопросах типа ‘Какая вкладка активна?’ или ‘Пользователь вошел в систему?’, позволяя проверять состояние до и после действий.
Сравнение с другими системами
При опубликованных протоколах Holo1.5 превосходит открытые базовые модели (Qwen2.5-VL), конкурентные специализированные системы (UI-TARS, UI-Venus) и показывает преимущества по сравнению с некоторыми закрытыми универсальными моделями на указанных UI-задачах. Тем не менее, протоколы, промпты и разрешения экранов влияют на результаты — рекомендуется воспроизвести тесты на собственной инфраструктуре.
Последствия интеграции
- Более надежные клики на родном разрешении: улучшение ScreenSpot-Pro указывает на снижение числа ошибок в сложных приложениях (IDE, дизайн-пакеты, админ-панели).
- Более точное отслеживание состояния: рост точности UI-VQA помогает фиксировать вход в систему, активную вкладку, видимость модальных окон и индикаторы успеха/ошибки.
- Практический путь лицензирования: 7B под Apache-2.0 подходит для продакшна; 72B — research-only для внутренних экспериментов.
Где размещать Holo1.5 в CU-стеке
Holo1.5 следует рассматривать как слой перцепции экрана. Вход — скриншоты в полном разрешении (опционально с метаданными). Выходы — координаты целей с уровнями уверенности и короткие текстовые ответы о состоянии экрана. Снизу вверх, политики действий преобразуют предсказания в клики и ввод с клавиатуры, а мониторинг проверяет пост-условия и запускает повторы или альтернативы при необходимости.
Практический совет
Если нужен коммерчески применимый базовый компонент, начните с Holo1.5-7B (Apache-2.0), прогоните бенчмарки на ваших экранах и интегрируйте планировщик и слои безопасности вокруг модели.