Hugging Face Представляет SmolVLA: Компактная и Эффективная Модель Визуально-Языкового Управления для Робототехники

Проблемы в Управлении Роботами

Недавние достижения в крупных моделях визуально-языкового управления (VLA) значительно продвинули робототехнику, однако реальное применение ограничено высокими требованиями к оборудованию и данным. Большинство существующих VLA моделей используют трансформеры с миллиардами параметров, что требует значительных ресурсов памяти и вычислений. Это ограничивает эксперименты в основном хорошо оснащёнными лабораториями и облачными сервисами, исключая пользователей с недорогим оборудованием. Кроме того, большая часть прогресса в VLA исследованиях либо закрыта, либо не воспроизводима, что препятствует открытому научному обмену. Разнообразие данных между платформами — различия в морфологии, сенсорах и способах управления — усложняет обобщение и обучение между разными роботами.

SmolVLA: Лёгкая и Открытая Модель VLA

Компания Hugging Face представила SmolVLA — компактную модель визуально-языкового управления, разработанную для доступности и эффективного развёртывания. В отличие от традиционных VLA, SmolVLA обучена исключительно на сообществах собираемых данных и оптимизирована для работы на одной GPU или CPU. Архитектура сочетает упрощённую предварительно обученную модель SmolVLM-2 и трансформер для управления действиями, что позволяет эффективно осуществлять низкоуровневое управление по естественным языковым инструкциям и изображениям с RGB-камеры.

Особенность SmolVLA — асинхронный стек инференса, который отделяет предсказание действий от их выполнения. Это снижает задержки, позволяя использовать модель в реальном времени даже на ограниченных по ресурсам устройствах. Модель доступна с открытой лицензией вместе с кодом, данными для обучения и инструментами для развёртывания.

Архитектура и Оптимизация

SmolVLA состоит из двух основных компонентов:

Модуль Восприятия (SmolVLM-2): Компактный энкодер визуально-языковых данных, обученный для обработки последовательностей RGB-изображений, сенсорных состояний и языковых инструкций. Для повышения эффективности визуальные токены понижаются в разрешении, а используются только нижние слои трансформера, так как они обеспечивают более переносимые признаки.
Эксперт по Действиям: Лёгкий трансформер, обученный методом flow matching, предсказывает последовательность непрерывных управляющих действий. Он чередует слои самовнимания и перекрёстного внимания, обеспечивая внутреннюю согласованность действий и учёт восприятия, с применением причинной маски для сохранения временной последовательности.

Для снижения вычислительной нагрузки применяются линейные проекции для согласования размерностей токенов различных модальностей. Действия предсказываются блоками, а не по одному шагу, что уменьшает частоту вызовов инференса. Обучение проводится с использованием bfloat16 и JIT-компиляции Torch для оптимизации времени выполнения.

Результаты в Симуляции и Реальных Задачах

SmolVLA протестирована на симуляционных тестах LIBERO и Meta-World, а также в реальных робототехнических задачах на недорогих платформах SO100 и SO101. Обученная с нуля на около 23,000 эпизодов из 481 сообщества с автоматически сгенерированными метками задач, модель показала впечатляющие результаты.

На бенчмарке LIBERO SmolVLA (0.45 млрд параметров) достигла среднего успеха 87.3%, сопоставимого или превосходящего более крупные модели вроде π₀ (3.3 млрд параметров). В Meta-World модель превзошла политики диффузии и мелкомасштабные VLA по сложности задач. Эти результаты впечатляют с учётом меньших затрат на обучение и отсутствия специализированного предобучения для робототехники.

В реальных условиях SmolVLA достигла 78.3% успешности в задачах подбора, укладки и сортировки, опередив как ACT (обученную с нуля), так и π₀ (финетюнинг). Она также хорошо обобщается на разные роботы, сохраняя производительность на SO101, несмотря на обучение только на данных SO100.

Преимущества Асинхронного Инференса

Асинхронный стек инференса увеличивает эффективность управления за счёт параллельного выполнения предсказаний и действий. По сравнению с синхронным инференсом, он сокращает среднее время выполнения задач примерно на 30% и удваивает количество выполненных действий в фиксированное время. Это особенно важно для edge-устройств, где задержки могут снижать качество управления в реальном времени.

Значение и Перспективы

SmolVLA доказывает, что компактные, воспроизводимые и открытые модели VLA могут обеспечить компетентное управление роботами на доступном оборудовании. Архитектурные решения — обрезка слоёв, предсказание блоками, асинхронное выполнение — позволяют сохранить производительность при значительном снижении вычислительных затрат.

Открытые обучающие и развёртывающие ресурсы вместе с валидацией в реальных условиях создают прочную базу для дальнейших исследований в области эффективного и доступного обучения роботов. В будущем планируется расширять базы данных с разными роботами, увеличивать размер модели без потери скорости и исследовать совместное обучение на мультимодальных данных за пределами робототехники.

Больше информации — в статье и модели на Hugging Face. Все заслуги принадлежат исследователям проекта.