Gelato-30B-A3B: новый эталон для GUI-grounding, опережающий GTA1-32B

Что такое Gelato-30B-A3B

Gelato-30B-A3B — это модель grounding для графических интерфейсов с 31 миллиардами параметров, которая преобразует скриншот и текстовую инструкцию в одну точную координату клика. Модель создана как модуль для агентских стеков: планировщик (в экспериментах — GPT-5) формулирует следующий высокоуровневый шаг, а Gelato разрешает его в конкретный клик по интерфейсу.

Модель дообучена от Qwen3-VL-30B-A3B Instruct в архитектуре mixture-of-experts и обучена на датасете Click 100k. По результатам бенчмарков она достигает 63.88% на ScreenSpot Pro, 69.15% на OS-World-G с стратегией отказа и 74.65% на OS-World-G Refined. Gelato превосходит предыдущие grounding-модели вроде GTA1-32B и крупные VLMы, например Qwen3-VL-235B-A22B-Instruct.

Click 100k: специализированный датасет для GUI-grounding

Click 100k связывает реальные скриншоты с низкоуровневыми инструкциями и точными bounding box для целевых элементов. В каждом примере есть инструкция, размеры изображения, координаты рамки и нормализованные координаты. Датасет объединяет публичные источники: ShowUI, AutoGUI, PC Agent E, WaveUI, OS Atlas, UGround, PixMo Points, SeeClick, UI VISION, JEDI-поднабор и 85 профессиональных обучающих видео, размеченных с помощью Claude-4-Sonnet.

Для качества разметки команда применяет агрессивную фильтрацию: OmniParser удаляет клики вне обнаруженных элементов интерфейса; Qwen2.5-7B-VL и SE-GUI-3B убирают самые тривиальные примеры; GTA1-7B-2507 и UI-Venus-7B отбрасывают несоответствия между инструкцией и регионoм клика. Обучение базовой модели на сбалансированном поднаборе в 10k примеров даёт прирост порядка +9 процентных пунктов на ScreenSpot Pro по сравнению с нефильтрованными данными.

Особое внимание уделено профессиональным приложениям: данные расширяются через UI VISION, JEDI-поднабор для работы со spreadsheet и разметку видеоуроков с последующей проверкой вручную.

Рецепт обучения: GRPO поверх Qwen3-VL

Gelato использует GRPO, алгоритм с подкреплением, поверх инициализации от Qwen3-VL. В настройках, похожих на DAPO, команда исключает член KL из функции цели, устанавливает порог клиппинга 0.28 и пропускает rollout'ы с нулевым advantage. Награды разрежены и даются только если предсказанный клик попадает в целевой bounding box.

Обучение проводили 100 шагов RL на 32 A100 40GB, лучший чекпоинт выбран на шаге 84 по среднему результату на ScreenSpot Pro, OS-World-G и OS-World-G Refined. В этот момент модель показывает 63.88% на ScreenSpot Pro и 67.19% / 73.40% на OS-World-G и OS-World-G Refined. Простая стратегия отказа в ответе повышает OS-World-G до 69.15% и 74.65%.

End-to-end тесты в OS World

Для проверки в реальном агентском сценарии Gelato встроили в GTA1.5 framework. GPT-5 выполняет планирование, Gelato — grounding. Агентам давали максимум 50 шагов и 3 секунды ожидания между действиями.

На фиксированном снапшоте OS World Gelato-30B-A3B показал 58.71% автоматизированного успешного выполнения задач с небольшой дисперсией, тогда как GTA1-32B дал 56.97% в тех же условиях. Человеческая оценка 20 проблемных задач поставила Gelato на 61.85% успеха против 59.47% у GTA1-32B, что подтверждает, что автоматический эвалюатор иногда пропускает корректные решения.

Значение результата

Gelato-30B-A3B показывает, что MoE-модель на базе Qwen3-VL, обученная на тщательно отфильтрованном Click 100k, повышает точность grounding и приносит реальный выигрыш в качестве end-to-end агентов для работы с компьютером. Модель устанавливает новый открытый эталон для GUI-grounding и доступна в репозитории проекта для дальнейших экспериментов.