Meta AI Представляет V-JEPA 2: Продвинутые Открытые Самостоятельно Обучающиеся Модели для Видеоанализа и Робототехники
Meta AI представила V-JEPA 2 — мощную открытую модель с самостоятельным обучением на масштабных видео данных для улучшенного видеоанализа и робототехнического планирования с высокими показателями точности и скорости.
Масштабируемое Самостоятельное Обучение на Огромных Объёмах Видео
Meta AI разработала V-JEPA 2 — масштабируемую открытую модель мира, обученную более чем на 1 миллионе часов интернет-видео и 1 миллионе изображений. Модель использует визуальную задачу восстановления замаскированных пространственно-временных фрагментов в латентном пространстве, сосредотачиваясь на предсказании значимых динамик сцены вместо сырых пикселей.
Для достижения такого масштаба Meta внедрила несколько ключевых инноваций:
- Масштабирование данных: Создан большой набор данных VideoMix22M, объединяющий публичные источники, такие как SSv2, Kinetics, HowTo100M, YT-Temporal-1B и ImageNet.
- Масштабирование модели: Расширен энкодер до более чем 1 миллиарда параметров с использованием архитектуры ViT-g.
- График обучения: Применена стратегия постепенного увеличения разрешения и продлено предобучение до 252 000 итераций.
- Пространственно-временная аугментация: Модель обучалась на всё более длинных и высокоразрешённых клипах, до 64 кадров с разрешением 384×384.
Эти решения обеспечили впечатляющую среднюю точность 88,2% по шести бенчмаркам, превзойдя предыдущие модели.
Улучшенное Визуальное Понимание через Маскированное Обучение Представлений
V-JEPA 2 показывает сильные способности в понимании движения и внешнего вида. На бенчмарке Something-Something v2 модель достигает точности Top-1 в 77,3%, превосходя модели InternVideo и VideoMAEv2. В задачах распознавания внешнего вида она конкурирует с ведущими моделями предварительного обучения типа изображение-текст, такими как DINOv2 и PEcoreG. Оценка с помощью attentive probes подтверждает, что самостоятельное обучение может создавать переносимые и доменно-агностичные визуальные признаки, применимые в различных классификационных задачах.
Временное Рассуждение и Вопросно-Ответные Задачи по Видео
Для проверки временного рассуждения энкодер V-JEPA 2 был совмещён с мультимодальной крупной языковой моделью и протестирован на различных задачах видео-вопросов. Несмотря на отсутствие языкового обучения на этапе предобучения, модель достигла высоких результатов:
- 84,0% на PerceptionTest
- 76,9% на TempCompass
- 44,5% на MVP
- 36,7% на TemporalBench
- 40,3% на TOMATO
Эти результаты показывают, что визуально-языковое согласование не обязательно требует совместного обучения с самого начала; можно эффективно выровнять предварительно обученный видеоэнкодер позже.
V-JEPA 2-AC: Робототехническое Планирование с Латентными Моделями Мира
Особое расширение V-JEPA 2-AC — это версия с учётом действий, дообученная на всего 62 часах неразмеченного видео с роботов из набора Droid. Эта 300-миллионная параметрическая трансформер-модель с блок-каузальной внимательностью обучается методами teacher-forcing и rollout для предсказания будущих видеоэмбеддингов, учитывая действия и положение робота.
Это позволяет выполнять нулевое планирование через модельно-управляемый контроль, минимизируя расстояние между воображаемыми будущими состояниями и визуальными целями с помощью метода перекрёстной энтропии (CEM). V-JEPA 2-AC достигает высоких успехов в задачах достижения, захвата и перемещения объектов на новых роботах без использования наград или дополнительного сбора данных.
Производительность и Эффективность на Бенчмарках
По сравнению с базовыми методами, такими как Octo и Cosmos, V-JEPA 2-AC демонстрирует:
- Значительно более быстрое выполнение планов (~16 секунд на шаг против 4 минут у Cosmos).
- 100% успеха в задачах достижения целей.
- Лучшие результаты в захвате и манипуляциях с разными объектами.
Особенно стоит отметить работу с использованием обычной монохромной RGB-камеры без калибровки и настройки под конкретную среду, что подчёркивает универсальность модели.
V-JEPA 2 от Meta — важный шаг вперёд в масштабируемом самостоятельном обучении для физического интеллекта, объединяющий восприятие и управление в реальном мире. Модели и ресурсы доступны на Hugging Face и GitHub.
Switch Language
Read this article in English