NVIDIA открыла ViPE: масштабируемый движок аннотаций 3D-видео для Spatial AI

Превращение обычного видео в 3D-данные

ViPE — новый открытый движок от NVIDIA, который преобразует необработанное видео из реального мира в ключевые 3D-элементы: параметры камеры, точные движения камеры (pose) и плотные метрические карты глубины. Он создан, чтобы преодолеть давний компромисс между точностью, устойчивостью и масштабируемостью в 3D-компьютерном зрении.

Почему извлечение 3D из 2D-видео сложно

Большая часть записанного видео остаётся в 2D, тогда как системам восприятия нужен 3D. Классические геометрические методы типа SLAM и SfM дают высокую точность в идеальных условиях, но ломаются в сценах с движущимися объектами, низкой текстурой или неизвестной камерой. Нейросетевые подходы устойчивы, но становятся вычислительно непрактичными при обработке длинных видеопоследовательностей. В результате отрасль столкнулась с дефицитом масштабируемых инструментов для массовой аннотации 3D-геометрии.

Гибридный подход ViPE

ViPE решает эту проблему, объединяя формальную оптимизацию классических методов с обучаемыми компонентами современных сетей. В основе лежит эффективный подход на базе bundle adjustment с ключевыми кадрами, дополненный обученными модулями и приоритетами, что обеспечивает устойчивую работу в реальных условиях.

Ключевые нововведения

Скорость, детализация и универсальность

ViPE работает примерно на 3–5 кадрах в секунду на одной GPU, что делает его значительно быстрее многих альтернатив при сохранении геометрической точности. Шаг постобработки аккуратно совмещает детализированные карты глубины с геометрически консистентными картами ядра, обеспечивая высокое качество и временную стабильность глубины.

Результаты и датасеты

В тестах ViPE превосходит базовые методы некалиброванной оценки поз на порядка 18% на датасете TUM и около 50% на KITTI. Важно, что ViPE восстанавливает согласованную метрическую шкалу, где многие другие решения даёт некорректные масштабы.

NVIDIA также использовала ViPE для генерации огромного объёма аннотированных данных:

Всего выпущено примерно 96 миллионов аннотированных кадров, которые призваны ускорить обучение 3D-фундаментальных моделей и систем генерации мира, таких как Gen3C и Cosmos от NVIDIA.

Где взять ViPE

Код и ресурсы ViPE опубликованы в открытом доступе: исследовательская страница проекта, репозиторий на GitHub и датасеты на Hugging Face. ViPE доступен как инструмент и как фабрика аннотаций для создания разнообразных геометрических тренировочных данных для робототехники, AR/VR и автономных систем.

Ресурсы проекта: