Meta AI Представляет V-JEPA 2: Продвинутые Открытые Самостоятельно Обучающиеся Модели для Видеоанализа и Робототехники

Масштабируемое Самостоятельное Обучение на Огромных Объёмах Видео

Meta AI разработала V-JEPA 2 — масштабируемую открытую модель мира, обученную более чем на 1 миллионе часов интернет-видео и 1 миллионе изображений. Модель использует визуальную задачу восстановления замаскированных пространственно-временных фрагментов в латентном пространстве, сосредотачиваясь на предсказании значимых динамик сцены вместо сырых пикселей.

Для достижения такого масштаба Meta внедрила несколько ключевых инноваций:

Масштабирование данных: Создан большой набор данных VideoMix22M, объединяющий публичные источники, такие как SSv2, Kinetics, HowTo100M, YT-Temporal-1B и ImageNet.
Масштабирование модели: Расширен энкодер до более чем 1 миллиарда параметров с использованием архитектуры ViT-g.
График обучения: Применена стратегия постепенного увеличения разрешения и продлено предобучение до 252 000 итераций.
Пространственно-временная аугментация: Модель обучалась на всё более длинных и высокоразрешённых клипах, до 64 кадров с разрешением 384×384.

Эти решения обеспечили впечатляющую среднюю точность 88,2% по шести бенчмаркам, превзойдя предыдущие модели.

Улучшенное Визуальное Понимание через Маскированное Обучение Представлений

V-JEPA 2 показывает сильные способности в понимании движения и внешнего вида. На бенчмарке Something-Something v2 модель достигает точности Top-1 в 77,3%, превосходя модели InternVideo и VideoMAEv2. В задачах распознавания внешнего вида она конкурирует с ведущими моделями предварительного обучения типа изображение-текст, такими как DINOv2 и PEcoreG. Оценка с помощью attentive probes подтверждает, что самостоятельное обучение может создавать переносимые и доменно-агностичные визуальные признаки, применимые в различных классификационных задачах.

Временное Рассуждение и Вопросно-Ответные Задачи по Видео

Для проверки временного рассуждения энкодер V-JEPA 2 был совмещён с мультимодальной крупной языковой моделью и протестирован на различных задачах видео-вопросов. Несмотря на отсутствие языкового обучения на этапе предобучения, модель достигла высоких результатов:

84,0% на PerceptionTest
76,9% на TempCompass
44,5% на MVP
36,7% на TemporalBench
40,3% на TOMATO

Эти результаты показывают, что визуально-языковое согласование не обязательно требует совместного обучения с самого начала; можно эффективно выровнять предварительно обученный видеоэнкодер позже.

V-JEPA 2-AC: Робототехническое Планирование с Латентными Моделями Мира

Особое расширение V-JEPA 2-AC — это версия с учётом действий, дообученная на всего 62 часах неразмеченного видео с роботов из набора Droid. Эта 300-миллионная параметрическая трансформер-модель с блок-каузальной внимательностью обучается методами teacher-forcing и rollout для предсказания будущих видеоэмбеддингов, учитывая действия и положение робота.

Это позволяет выполнять нулевое планирование через модельно-управляемый контроль, минимизируя расстояние между воображаемыми будущими состояниями и визуальными целями с помощью метода перекрёстной энтропии (CEM). V-JEPA 2-AC достигает высоких успехов в задачах достижения, захвата и перемещения объектов на новых роботах без использования наград или дополнительного сбора данных.

Производительность и Эффективность на Бенчмарках

По сравнению с базовыми методами, такими как Octo и Cosmos, V-JEPA 2-AC демонстрирует:

Значительно более быстрое выполнение планов (~16 секунд на шаг против 4 минут у Cosmos).
100% успеха в задачах достижения целей.
Лучшие результаты в захвате и манипуляциях с разными объектами.

Особенно стоит отметить работу с использованием обычной монохромной RGB-камеры без калибровки и настройки под конкретную среду, что подчёркивает универсальность модели.