<НА ГЛАВНУЮ

Meta AI Представляет V-JEPA 2: Продвинутые Открытые Самостоятельно Обучающиеся Модели для Видеоанализа и Робототехники

Meta AI представила V-JEPA 2 — мощную открытую модель с самостоятельным обучением на масштабных видео данных для улучшенного видеоанализа и робототехнического планирования с высокими показателями точности и скорости.

Масштабируемое Самостоятельное Обучение на Огромных Объёмах Видео

Meta AI разработала V-JEPA 2 — масштабируемую открытую модель мира, обученную более чем на 1 миллионе часов интернет-видео и 1 миллионе изображений. Модель использует визуальную задачу восстановления замаскированных пространственно-временных фрагментов в латентном пространстве, сосредотачиваясь на предсказании значимых динамик сцены вместо сырых пикселей.

Для достижения такого масштаба Meta внедрила несколько ключевых инноваций:

  • Масштабирование данных: Создан большой набор данных VideoMix22M, объединяющий публичные источники, такие как SSv2, Kinetics, HowTo100M, YT-Temporal-1B и ImageNet.
  • Масштабирование модели: Расширен энкодер до более чем 1 миллиарда параметров с использованием архитектуры ViT-g.
  • График обучения: Применена стратегия постепенного увеличения разрешения и продлено предобучение до 252 000 итераций.
  • Пространственно-временная аугментация: Модель обучалась на всё более длинных и высокоразрешённых клипах, до 64 кадров с разрешением 384×384.

Эти решения обеспечили впечатляющую среднюю точность 88,2% по шести бенчмаркам, превзойдя предыдущие модели.

Улучшенное Визуальное Понимание через Маскированное Обучение Представлений

V-JEPA 2 показывает сильные способности в понимании движения и внешнего вида. На бенчмарке Something-Something v2 модель достигает точности Top-1 в 77,3%, превосходя модели InternVideo и VideoMAEv2. В задачах распознавания внешнего вида она конкурирует с ведущими моделями предварительного обучения типа изображение-текст, такими как DINOv2 и PEcoreG. Оценка с помощью attentive probes подтверждает, что самостоятельное обучение может создавать переносимые и доменно-агностичные визуальные признаки, применимые в различных классификационных задачах.

Временное Рассуждение и Вопросно-Ответные Задачи по Видео

Для проверки временного рассуждения энкодер V-JEPA 2 был совмещён с мультимодальной крупной языковой моделью и протестирован на различных задачах видео-вопросов. Несмотря на отсутствие языкового обучения на этапе предобучения, модель достигла высоких результатов:

  • 84,0% на PerceptionTest
  • 76,9% на TempCompass
  • 44,5% на MVP
  • 36,7% на TemporalBench
  • 40,3% на TOMATO

Эти результаты показывают, что визуально-языковое согласование не обязательно требует совместного обучения с самого начала; можно эффективно выровнять предварительно обученный видеоэнкодер позже.

V-JEPA 2-AC: Робототехническое Планирование с Латентными Моделями Мира

Особое расширение V-JEPA 2-AC — это версия с учётом действий, дообученная на всего 62 часах неразмеченного видео с роботов из набора Droid. Эта 300-миллионная параметрическая трансформер-модель с блок-каузальной внимательностью обучается методами teacher-forcing и rollout для предсказания будущих видеоэмбеддингов, учитывая действия и положение робота.

Это позволяет выполнять нулевое планирование через модельно-управляемый контроль, минимизируя расстояние между воображаемыми будущими состояниями и визуальными целями с помощью метода перекрёстной энтропии (CEM). V-JEPA 2-AC достигает высоких успехов в задачах достижения, захвата и перемещения объектов на новых роботах без использования наград или дополнительного сбора данных.

Производительность и Эффективность на Бенчмарках

По сравнению с базовыми методами, такими как Octo и Cosmos, V-JEPA 2-AC демонстрирует:

  • Значительно более быстрое выполнение планов (~16 секунд на шаг против 4 минут у Cosmos).
  • 100% успеха в задачах достижения целей.
  • Лучшие результаты в захвате и манипуляциях с разными объектами.

Особенно стоит отметить работу с использованием обычной монохромной RGB-камеры без калибровки и настройки под конкретную среду, что подчёркивает универсальность модели.

V-JEPA 2 от Meta — важный шаг вперёд в масштабируемом самостоятельном обучении для физического интеллекта, объединяющий восприятие и управление в реальном мире. Модели и ресурсы доступны на Hugging Face и GitHub.

🇬🇧

Switch Language

Read this article in English

Switch to English