MirrorVerse: Продвинутые диффузионные модели для реалистичных отражений

Проблемы моделирования физических явлений в ИИ

Генеративный ИИ вызвал рост исследований, направленных на обучение моделей пониманию и воспроизведению физических законов, таких как гравитация и динамика жидкостей. Латентные диффузионные модели (LDM), доминирующие с 2022 года, испытывают трудности с точным отображением физических явлений, особенно отражений.

Проблема отражений в диффузионных моделях

Отражения представляют особую сложность для LDM по сравнению с другими физическими задачами, такими как симуляция походки или физика частиц. В то время как в CGI используется трассировка лучей для имитации взаимодействия света с поверхностями, это требует больших вычислительных затрат и ограничено числом отражений света. Диффузионные модели не имеют явных структурных правил и сильно зависят от качества и разнообразия обучающих данных для усвоения поведения отражений.

Предыдущие подходы к моделированию отражений

Методы, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, пытались моделировать отражения с разной степенью успеха, используя сложное моделирование сцен и расчет лучей. Однако диффузионным моделям, из-за их семантической природы, сложнее надежно внедрить логику отражений.

Введение MirrorVerse и MirrorFusion 2.0

Проект MirrorVerse решает ограничения отражений, предлагая улучшенный датасет и метод обучения. MirrorFusion 2.0 — генеративная модель на основе диффузии, разработанная исследователями из IISc Bangalore и Samsung R&D Institute, использует датасет MirrorGen2. Он включает случайное позиционирование объектов, вращения, их закрепление и семантические пары объектов для имитации реалистичных отражений.

Создание датасета и обучение

Датасет MirrorGen2 создаётся путем размещения 3D-объектов из Objaverse и Amazon Berkeley Objects на текстурированных полах с HDRI-фонами и зеркалами, обеспечивая видимость и реалистичное освещение. Несколько объектов объединяются в семантически согласованные пары для симуляции окклюзий и пространственной сложности.

Обучение MirrorFusion 2.0 проходит в три этапа: сначала на синтетических сценах с одним объектом, затем на сценах с несколькими объектами для обучения работе с окклюзиями, и, наконец, дополнительная настройка на реальных данных (датасет MSD) с картами глубины. Такой подход улучшает генерализацию и точность отражений.

Оценка и результаты

MirrorFusion 2.0 превосходит предыдущие модели по количественным метрикам (PSNR, SSIM, LPIPS) и качественным тестам на датасетах MirrorBenchV2, GSO и MSD. Модель сохраняет пространственную целостность, точную геометрию и реалистичные отражения даже на сложных и новых сценах. Пользовательское исследование показало, что 84% пользователей предпочли результаты MirrorFusion 2.0 по сравнению с базовой моделью.

Ограничения и перспективы

Несмотря на улучшения, проблема отражений остаётся сложной из-за архитектурных ограничений диффузионных моделей и зависимости от обучающих данных. Улучшение разнообразия и аннотации данных, связанных с отражениями, может повысить качество будущих моделей. Однако распределение ресурсов между различными проблемами физического моделирования в LDM остаётся непростой задачей.

Проект MirrorVerse и модель MirrorFusion 2.0 представляют значительный прогресс в создании диффузионных моделей, способных реалистично отражать окружающий мир, хотя для достижения качества структурных методов, таких как NeRF и Gaussian Splatting, предстоит ещё много работы.