Tencent представила PrimitiveAnything: новую AI-систему для реконструкции 3D-форм с помощью авто-регрессивной генерации примитивов

Понятие абстракции примитивов формы

Абстракция примитивов формы разбивает сложные 3D-объекты на простые геометрические элементы, что важно для человеческого восприятия и имеет ключевое значение в компьютерном зрении и графике. Современные методы генерации 3D, такие как меши, облака точек и нейронные поля, создают детализированные модели, но часто недостаточно семантически глубоки и интерпретируемы для задач робототехники и понимания сцены.

Проблемы традиционных методов

Традиционные подходы используют оптимизационные методы, которые подгоняют геометрические примитивы, но часто чрезмерно сегментируют объекты с точки зрения семантики, или методы обучения на небольших специализированных датасетах, плохо обобщающиеся на разные категории. Ранние работы применяли простые примитивы, такие как кубоиды и цилиндры, позже добавились суперкуадрики. Основная сложность — создать метод, который соответствует человеческому восприятию и одновременно хорошо работает на различных объектах.

Что такое PrimitiveAnything

Вдохновленные достижениями в 3D-генерации с помощью больших датасетов и авто-регрессивных трансформеров, исследователи Tencent разработали PrimitiveAnything. Эта система рассматривает абстракцию формы как задачу генерации, последовательно собирая примитивы, имитируя человеческое мышление. Используется декодерный трансформер, который получает признаки формы и генерирует последовательности примитивов переменной длины.

Технические особенности

PrimitiveAnything применяет единую, однозначную параметризацию для разных типов примитивов, обеспечивая точность и эффективность обучения. Каждый примитив кодируется типом, положением, вращением и масштабом, которые подаются в трансформер для автрорегрессивного предсказания следующего элемента. Каскадный декодер учитывает зависимость между атрибутами для последовательного и связного построения. Обучение сочетает кросс-энтропийные потери, Chamfer Distance для точности реконструкции и Gumbel-Softmax для дифференцируемой выборки. Генерация продолжается до специального токена конца последовательности, что позволяет гибко и интуитивно разбирать сложные формы.

Датасет и результаты

Создан крупный датасет HumanPrim с 120 тысячами 3D образцов с ручной разметкой примитивов. Оценка по метрикам Chamfer Distance, Earth Mover’s Distance, Hausdorff Distance, Voxel-IoU и сегментационным показателям показывает превосходство PrimitiveAnything над существующими методами. Абляционные исследования подтверждают важность всех компонентов. Фреймворк поддерживает генерацию 3D-контента из текста и изображений, удобен в редактировании, обеспечивает высокое качество и экономит более 95% памяти.

Возможные сферы применения

Благодаря эффективности и модульности PrimitiveAnything подходит для интерактивных 3D-приложений, таких как игры, где важны производительность и простота работы. Способность модели хорошо обобщать на разные категории и соответствовать человеческим моделям абстракции открывает перспективы для робототехники, понимания сцен и креативного контента.

Для дополнительной информации доступны статья, демонстрация и GitHub-страница проекта. Следите за обновлениями в Twitter и присоединяйтесь к обсуждениям в сообществе машинного обучения.