Smol2Operator: открытый конвейер Hugging Face для превращения 2.2B VLM в GUI-агента
Что такое Smol2Operator
Hugging Face выпустил Smol2Operator, полностью открытый и воспроизводимый рецепт, который превращает небольшую модель зрение-язык (VLM), изначально не обученную работе с интерфейсами, в агента, способного управлять графическими интерфейсами и использовать инструменты. В релиз входят утилиты трансформации данных, скрипты обучения, преобразованные датасеты и чекпойнт модели на 2.2B параметров. Авторы представляют это как полный план для создания GUI-агентов с нуля.
Двухфазный подход к обучению
Smol2Operator использует двухфазную стратегию supervised fine-tuning (SFT) для SmolVLM2-2.2B-Instruct:
- Фаза 1: Восприятие и привязка к элементам интерфейса. Модель учат локализовать элементы UI и распознавать базовые аффордансы на скриншотах. Для оценки локализации элементов используется ScreenSpot-v2.
- Фаза 2: Агентное рассуждение. После освоения привязки проводится дополнительная SFT, чтобы научить модель планировать шаги и выдавать пошаговые действия в согласии с унифицированным API действий.
Разделение помогает сначала получить надёжное восприятие, а затем добавить планирование и использование инструментов без смешивания целей обучения.
Унифицированное пространство действий
Ключевая идея релиза — конвертер пространства действий, который нормализует разнородные таксономии действий GUI из мобильных, десктопных и веб-источников в единый API. Действия вроде click, type и drag представлены с нормализованными параметрами, например координаты приведены к диапазону [0,1]. Пайплайн также стандартизирует имена параметров, удаляет избыточные действия и конвертирует пиксельные координаты в нормализованные.
Такая унификация снижает инженерные затраты при объединении разных датасетов и делает обучение устойчивым к изменению размера изображений на этапе предобработки VLM.
Стек обучения и путь данных
Предоставляемый стек фокусируется на стандартизации данных и воспроизводимом обучении:
- Разбор и нормализация вызовов функций из исходных датасетов, например этапов AGUVIS, в единый набор сигнатур.
- Очистка последовательностей действий: удаление избыточности и гармонизация названий параметров.
- Конвертация пиксельных координат в нормализованные значения для совместимости разрешений.
- Применение SFT Фазы 1 для восприятия и привязки, затем SFT Фазы 2 для планирования и генерации действий, согласованных с унифицированным API.
Команда Hugging Face отмечает стабильный рост качества на ScreenSpot-v2 в процессе обучения привязки и показывает, что метод переносим до ~460M nanoVLM, что говорит о масштабируемости подхода.
Область применения, ограничения и дальнейшие шаги
Авторы позиционируют Smol2Operator как методологию процесса, а не как гонку за рекордами лидербордов. Текущая оценка сосредоточена на метриках восприятия ScreenSpot-v2 и качественных демонстрациях end-to-end. Более широкие кросс-средовые и кросс-ОС бенчмарки, задачи с длительной горизонтом и адаптация на политике с помощью RL или DPO запланированы как дальнейшие направления.
Дорожная карта ScreenEnv включает расширение покрытия ОС, таких как Android, macOS и Windows, что повысит внешнюю валидность обучаемых политик.
Ресурсы и воспроизводимость
Smol2Operator поставляется с преобразованными датасетами на базе AGUVIS, ноутбуками обучения, кодом предобработки, итоговым чекпойнтом на 2.2B и демонстрационной Space. Релиз делает упор на прозрачность и переносимость, снижая инженерный порог для команд, которые хотят воспроизвести или адаптировать GUI-агентов на базе малых VLM.
Для технических деталей, датасетов и демонстраций см. страницы проекта Hugging Face и связанные репозитории, упомянутые в релизе.