NVIDIA открыла ViPE: масштабируемый движок аннотаций 3D-видео для Spatial AI

Превращение обычного видео в 3D-данные

ViPE — новый открытый движок от NVIDIA, который преобразует необработанное видео из реального мира в ключевые 3D-элементы: параметры камеры, точные движения камеры (pose) и плотные метрические карты глубины. Он создан, чтобы преодолеть давний компромисс между точностью, устойчивостью и масштабируемостью в 3D-компьютерном зрении.

Почему извлечение 3D из 2D-видео сложно

Большая часть записанного видео остаётся в 2D, тогда как системам восприятия нужен 3D. Классические геометрические методы типа SLAM и SfM дают высокую точность в идеальных условиях, но ломаются в сценах с движущимися объектами, низкой текстурой или неизвестной камерой. Нейросетевые подходы устойчивы, но становятся вычислительно непрактичными при обработке длинных видеопоследовательностей. В результате отрасль столкнулась с дефицитом масштабируемых инструментов для массовой аннотации 3D-геометрии.

Гибридный подход ViPE

ViPE решает эту проблему, объединяя формальную оптимизацию классических методов с обучаемыми компонентами современных сетей. В основе лежит эффективный подход на базе bundle adjustment с ключевыми кадрами, дополненный обученными модулями и приоритетами, что обеспечивает устойчивую работу в реальных условиях.

Ключевые нововведения

Плотный оптический поток из обучаемых сетей для устойчивых соответствий между кадрами при сложных движениях и окклюзиях.
Высококачественное разреженное отслеживание признаков для сохранения классической геометрической точности.
Приоритеты метрической глубины из современных моноокулярных моделей, позволяющие восстановить реальные размеры в метрической шкале.
Сегментация движущихся объектов с помощью инструментов вроде GroundingDINO и Segment Anything для исключения динамических зон из расчёта движения камеры.
Поддержка разных моделей камер, включая широкоугольные, фишай и 360° панорамы, с автоматической оптимизацией параметров.

Скорость, детализация и универсальность

ViPE работает примерно на 3–5 кадрах в секунду на одной GPU, что делает его значительно быстрее многих альтернатив при сохранении геометрической точности. Шаг постобработки аккуратно совмещает детализированные карты глубины с геометрически консистентными картами ядра, обеспечивая высокое качество и временную стабильность глубины.

Результаты и датасеты

В тестах ViPE превосходит базовые методы некалиброванной оценки поз на порядка 18% на датасете TUM и около 50% на KITTI. Важно, что ViPE восстанавливает согласованную метрическую шкалу, где многие другие решения даёт некорректные масштабы.

NVIDIA также использовала ViPE для генерации огромного объёма аннотированных данных:

Dynpose-100K++: почти 100 000 реальных интернет-видео, около 15.7 млн кадров с высококачественными позами и плотной геометрией.
Wild-SDG-1M: примерно 1 млн AI-сгенерированных видео, около 78 млн кадров.
Web360: набор аннотированных панорамных видеороликов.

Всего выпущено примерно 96 миллионов аннотированных кадров, которые призваны ускорить обучение 3D-фундаментальных моделей и систем генерации мира, таких как Gen3C и Cosmos от NVIDIA.

Где взять ViPE

Код и ресурсы ViPE опубликованы в открытом доступе: исследовательская страница проекта, репозиторий на GitHub и датасеты на Hugging Face. ViPE доступен как инструмент и как фабрика аннотаций для создания разнообразных геометрических тренировочных данных для робототехники, AR/VR и автономных систем.

Ресурсы проекта:

https://research.nvidia.com/labs/toronto-ai/vipe/
https://github.com/nv-tlabs/vipe
https://huggingface.co/datasets/nvidia/vipe-dynpose-100kpp
https://huggingface.co/datasets/nvidia/vipe-wild-sdg-1m
https://huggingface.co/datasets/nvidia/vipe-web360
https://www.nvidia.com/en-us/ai/cosmos/