NVIDIA открыла ViPE: масштабируемый движок аннотаций 3D-видео для Spatial AI
Превращение обычного видео в 3D-данные
ViPE — новый открытый движок от NVIDIA, который преобразует необработанное видео из реального мира в ключевые 3D-элементы: параметры камеры, точные движения камеры (pose) и плотные метрические карты глубины. Он создан, чтобы преодолеть давний компромисс между точностью, устойчивостью и масштабируемостью в 3D-компьютерном зрении.
Почему извлечение 3D из 2D-видео сложно
Большая часть записанного видео остаётся в 2D, тогда как системам восприятия нужен 3D. Классические геометрические методы типа SLAM и SfM дают высокую точность в идеальных условиях, но ломаются в сценах с движущимися объектами, низкой текстурой или неизвестной камерой. Нейросетевые подходы устойчивы, но становятся вычислительно непрактичными при обработке длинных видеопоследовательностей. В результате отрасль столкнулась с дефицитом масштабируемых инструментов для массовой аннотации 3D-геометрии.
Гибридный подход ViPE
ViPE решает эту проблему, объединяя формальную оптимизацию классических методов с обучаемыми компонентами современных сетей. В основе лежит эффективный подход на базе bundle adjustment с ключевыми кадрами, дополненный обученными модулями и приоритетами, что обеспечивает устойчивую работу в реальных условиях.
Ключевые нововведения
- Плотный оптический поток из обучаемых сетей для устойчивых соответствий между кадрами при сложных движениях и окклюзиях.
- Высококачественное разреженное отслеживание признаков для сохранения классической геометрической точности.
- Приоритеты метрической глубины из современных моноокулярных моделей, позволяющие восстановить реальные размеры в метрической шкале.
- Сегментация движущихся объектов с помощью инструментов вроде GroundingDINO и Segment Anything для исключения динамических зон из расчёта движения камеры.
- Поддержка разных моделей камер, включая широкоугольные, фишай и 360° панорамы, с автоматической оптимизацией параметров.
Скорость, детализация и универсальность
ViPE работает примерно на 3–5 кадрах в секунду на одной GPU, что делает его значительно быстрее многих альтернатив при сохранении геометрической точности. Шаг постобработки аккуратно совмещает детализированные карты глубины с геометрически консистентными картами ядра, обеспечивая высокое качество и временную стабильность глубины.
Результаты и датасеты
В тестах ViPE превосходит базовые методы некалиброванной оценки поз на порядка 18% на датасете TUM и около 50% на KITTI. Важно, что ViPE восстанавливает согласованную метрическую шкалу, где многие другие решения даёт некорректные масштабы.
NVIDIA также использовала ViPE для генерации огромного объёма аннотированных данных:
- Dynpose-100K++: почти 100 000 реальных интернет-видео, около 15.7 млн кадров с высококачественными позами и плотной геометрией.
- Wild-SDG-1M: примерно 1 млн AI-сгенерированных видео, около 78 млн кадров.
- Web360: набор аннотированных панорамных видеороликов.
Всего выпущено примерно 96 миллионов аннотированных кадров, которые призваны ускорить обучение 3D-фундаментальных моделей и систем генерации мира, таких как Gen3C и Cosmos от NVIDIA.
Где взять ViPE
Код и ресурсы ViPE опубликованы в открытом доступе: исследовательская страница проекта, репозиторий на GitHub и датасеты на Hugging Face. ViPE доступен как инструмент и как фабрика аннотаций для создания разнообразных геометрических тренировочных данных для робототехники, AR/VR и автономных систем.
Ресурсы проекта: