PEVA: Революция в прогнозировании эгоцентрического видео с использованием движений всего тела

Взаимосвязь движений тела и визуального восприятия

Визуальное восприятие человека с эгоцентрической точки зрения играет ключевую роль в создании интеллектуальных систем, способных понимать и взаимодействовать с окружающей средой. Движения — от ходьбы до жестов руками — непосредственно влияют на то, что видит человек с первого лица. Понимание этой связи позволяет машинам предугадывать визуальную информацию так, как это делает человек, особенно в динамичных реальных условиях.

Сложности в связывании движений и изменений в восприятии

Обучить системы учитывать, как физические действия влияют на восприятие, сложно. Повороты или наклоны меняют видимость тонко и с задержкой. Для точного моделирования требуется не просто предсказать следующий кадр видео, а связать физические движения с изменениями в визуальном потоке. Без этой возможности роботы и агенты не смогут эффективно планировать и взаимодействовать в изменяющейся среде.

Ограничения существующих моделей

Ранее модели предсказывали видео на основе упрощённых данных, таких как скорость или направление взгляда, игнорируя сложность движений всего тела. Такие подходы упускают тонкую координацию, необходимую для реалистичного моделирования человеческих действий. Движение тела зачастую рассматривалось как результат, а не как причина предсказания, что снижало практическую ценность моделей.

Представляем PEVA: прогнозирование видео с учётом движений всего тела

Исследователи из UC Berkeley, Meta FAIR и NYU создали PEVA — модель, которая прогнозирует будущие эгоцентрические видео на основе данных о движениях всего тела, полученных из 3D-поз. PEVA устанавливает связь между действием и восприятием, используя условный диффузионный трансформер, обученный на базе Nymeria — крупном датасете с синхронизированными эгоцентрическими видео и захватом движений всего тела.

Структурированное представление действий и архитектура модели

Действия в PEVA кодируются 48-мерным вектором, включающим трансляцию корня и вращения 15 суставов верхней части тела в 3D, нормализованным относительно таза. Такой подход позволяет точно моделировать непрерывное и сложное движение. Модель автормоделирующая, диффузионная — преобразует видео в латентные состояния и предсказывает следующие кадры, учитывая предыдущие состояния и движения тела. Случайные пропуски времени в обучении помогают учитывать как немедленные, так и отсроченные визуальные эффекты.

Результаты и эффективность

PEVA превосходит базовые модели в краткосрочном (2 секунды) и долгосрочном (до 16 секунд) прогнозировании видео. Она показывает лучшие показатели LPIPS и DreamSim, что говорит о высоком качестве и точности визуализации. Модель также разбивает движения на атомарные действия — например, движения рук и повороты тела, обеспечивая детальный контроль. Длинные последовательности сохраняют целостность и достоверно моделируют отсроченные последствия движений, доказывая преимущество использования полного контроля тела.

Вклад в развитие физически обоснованного воплощённого ИИ

Работа представляет важный шаг в прогнозировании эгоцентрического видео с физическим обоснованием на движениях всего тела. Использование структурированных поз и диффузионного обучения позволяет PEVA создавать точные и реалистичные предсказания будущих визуальных сцен, что открывает новые возможности для создания умных и отзывчивых систем.