Tencent представила PrimitiveAnything: новую AI-систему для реконструкции 3D-форм с помощью авто-регрессивной генерации примитивов
Tencent представила PrimitiveAnything — новую AI-систему, которая восстанавливает 3D-формы путем последовательной генерации геометрических примитивов, улучшая семантику и обобщаемость на разные объекты.
Понятие абстракции примитивов формы
Абстракция примитивов формы разбивает сложные 3D-объекты на простые геометрические элементы, что важно для человеческого восприятия и имеет ключевое значение в компьютерном зрении и графике. Современные методы генерации 3D, такие как меши, облака точек и нейронные поля, создают детализированные модели, но часто недостаточно семантически глубоки и интерпретируемы для задач робототехники и понимания сцены.
Проблемы традиционных методов
Традиционные подходы используют оптимизационные методы, которые подгоняют геометрические примитивы, но часто чрезмерно сегментируют объекты с точки зрения семантики, или методы обучения на небольших специализированных датасетах, плохо обобщающиеся на разные категории. Ранние работы применяли простые примитивы, такие как кубоиды и цилиндры, позже добавились суперкуадрики. Основная сложность — создать метод, который соответствует человеческому восприятию и одновременно хорошо работает на различных объектах.
Что такое PrimitiveAnything
Вдохновленные достижениями в 3D-генерации с помощью больших датасетов и авто-регрессивных трансформеров, исследователи Tencent разработали PrimitiveAnything. Эта система рассматривает абстракцию формы как задачу генерации, последовательно собирая примитивы, имитируя человеческое мышление. Используется декодерный трансформер, который получает признаки формы и генерирует последовательности примитивов переменной длины.
Технические особенности
PrimitiveAnything применяет единую, однозначную параметризацию для разных типов примитивов, обеспечивая точность и эффективность обучения. Каждый примитив кодируется типом, положением, вращением и масштабом, которые подаются в трансформер для автрорегрессивного предсказания следующего элемента. Каскадный декодер учитывает зависимость между атрибутами для последовательного и связного построения. Обучение сочетает кросс-энтропийные потери, Chamfer Distance для точности реконструкции и Gumbel-Softmax для дифференцируемой выборки. Генерация продолжается до специального токена конца последовательности, что позволяет гибко и интуитивно разбирать сложные формы.
Датасет и результаты
Создан крупный датасет HumanPrim с 120 тысячами 3D образцов с ручной разметкой примитивов. Оценка по метрикам Chamfer Distance, Earth Mover’s Distance, Hausdorff Distance, Voxel-IoU и сегментационным показателям показывает превосходство PrimitiveAnything над существующими методами. Абляционные исследования подтверждают важность всех компонентов. Фреймворк поддерживает генерацию 3D-контента из текста и изображений, удобен в редактировании, обеспечивает высокое качество и экономит более 95% памяти.
Возможные сферы применения
Благодаря эффективности и модульности PrimitiveAnything подходит для интерактивных 3D-приложений, таких как игры, где важны производительность и простота работы. Способность модели хорошо обобщать на разные категории и соответствовать человеческим моделям абстракции открывает перспективы для робототехники, понимания сцен и креативного контента.
Для дополнительной информации доступны статья, демонстрация и GitHub-страница проекта. Следите за обновлениями в Twitter и присоединяйтесь к обсуждениям в сообществе машинного обучения.
Switch Language
Read this article in English