NVIDIA представляет GraspGen: революция в 6-DOF захватах для роботов на основе диффузионных моделей
NVIDIA выпустила GraspGen — инновационную диффузионную систему, значительно улучшающую 6-DOF захваты роботов с помощью масштабного синтетического обучения и новых методов тренировки, показывая высокую эффективность в симуляции и на реальных роботах.
Проблема 6-DOF захвата роботов
Захват объектов роботами является ключевой задачей автоматизации в различных сферах — от промышленного подбора до гуманоидных роботов. Надёжное выполнение 6-степенного захвата (6-DOF), включающего позицию и ориентацию в 3D пространстве, остаётся сложной задачей из-за необходимости обобщения на неизвестные объекты, разные типы захватов и сложные условия с частичными данными и загромождённостью.
Ограничения существующих методов
Традиционные методы планирования зависят от точного определения позы объекта или множества ракурсов, что затрудняет их применение в реальных непредсказуемых условиях. Методы на основе данных показывают потенциал, но часто испытывают трудности с обобщением и масштабируемостью, а также требуют дорогостоящих данных из реального мира, которые трудно переносить между задачами.
GraspGen: использование масштабного симуляционного обучения и диффузионных моделей
Рамка GraspGen от NVIDIA избегает затрат на сбор реальных данных, используя огромное количество синтетических данных, созданных в симуляции. В работе задействовано более 8 000 разнообразных объектов из набора Objaverse и более 53 миллионов сгенерированных захватов.
GraspGen рассматривает задачу генерации захватов как диффузионную вероятностную модель удаления шума (DDPM) в пространстве SE(3), включающем вращения и трансляции. Этот подход итеративно преобразует случайный шум в реалистичные позы захвата, основанные на облаке точек объекта, что позволяет естественно моделировать множество допустимых вариантов захвата для сложных объектов и обеспечивать разнообразие, необходимое для работы в загромождённых сценах.
Инновационная архитектура и обучение
GraspGen использует Diffusion Transformer Encoder с базой на PointTransformerV3, который кодирует необработанные 3D облака точек в латентные представления, после чего следуют диффузионные шаги для предсказания остаточного шума в пространстве поз захвата. Это обеспечивает более высокое качество и эффективность по сравнению с предыдущими методами.
Новая стратегия обучения дискриминатора происходит непосредственно на образцах, сгенерированных моделью во время тренировки, а не на статичных наборах данных. Это позволяет дискриминатору выявлять типичные ошибки модели и лучше фильтровать ложные срабатывания при инференсе.
Эффективное совместное использование весов позволяет дискриминатору повторно использовать зафиксированный энкодер объекта из генератора, обучая только небольшой многослойный персептрон для классификации успеха захвата, что снижает потребление памяти в 21 раз по сравнению с предыдущими архитектурами.
Нормализация трансляций и кодирование вращений через алгебру Ли или 6-мерные представления обеспечивают стабильность и точность предсказаний поз.
Универсальность для разных захватов и условий
GraspGen поддерживает несколько типов захватов: параллельные захваты (Franka Panda, Robotiq-2F-140), присоски и планируется поддержка многофаланговых захватов. Он стабильно работает с частичными и полными облаками точек, а также с одиночными объектами и загромождёнными сценами.
Результаты на бенчмарках и в реальных условиях
На тесте FetchBench для загромождённых сцен GraspGen достиг лучших показателей по успеху задач и захватов, значительно превосходя современные методы. В симуляции он улучшил успешность задач почти на 17% по сравнению с Contact-GraspNet.
В реальных экспериментах с роботом UR10 и сенсорами RealSense GraspGen показал 81.3% успеха захвата, превзойдя другие методы на 28%, демонстрируя эффективный перенос из симуляции в реальный мир.
Открытый доступ к датасету и коду
NVIDIA опубликовала датасет GraspGen с примерно 53 миллионами симулированных захватов на 8 515 объектах, а также исходные коды и предобученные модели с открытыми лицензиями.
Значение для робототехники
GraspGen представляет собой важный шаг вперёд в области роботизированного захвата, объединяя диффузионные модели, масштабное синтетическое обучение и инновационные методы тренировки. Эта платформа повышает надёжность и адаптивность захватов в разнообразных условиях, продвигая возможности реального применения роботов.
Для дополнительной информации посетите репозиторий GitHub и официальный сайт проекта.
Switch Language
Read this article in English