MirrorVerse: Продвинутые диффузионные модели для реалистичных отражений
MirrorVerse и MirrorFusion 2.0 предлагают инновационные датасеты и методы обучения, значительно повышающие точность и фотореализм отражений в диффузионных моделях.
Проблемы моделирования физических явлений в ИИ
Генеративный ИИ вызвал рост исследований, направленных на обучение моделей пониманию и воспроизведению физических законов, таких как гравитация и динамика жидкостей. Латентные диффузионные модели (LDM), доминирующие с 2022 года, испытывают трудности с точным отображением физических явлений, особенно отражений.
Проблема отражений в диффузионных моделях
Отражения представляют особую сложность для LDM по сравнению с другими физическими задачами, такими как симуляция походки или физика частиц. В то время как в CGI используется трассировка лучей для имитации взаимодействия света с поверхностями, это требует больших вычислительных затрат и ограничено числом отражений света. Диффузионные модели не имеют явных структурных правил и сильно зависят от качества и разнообразия обучающих данных для усвоения поведения отражений.
Предыдущие подходы к моделированию отражений
Методы, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, пытались моделировать отражения с разной степенью успеха, используя сложное моделирование сцен и расчет лучей. Однако диффузионным моделям, из-за их семантической природы, сложнее надежно внедрить логику отражений.
Введение MirrorVerse и MirrorFusion 2.0
Проект MirrorVerse решает ограничения отражений, предлагая улучшенный датасет и метод обучения. MirrorFusion 2.0 — генеративная модель на основе диффузии, разработанная исследователями из IISc Bangalore и Samsung R&D Institute, использует датасет MirrorGen2. Он включает случайное позиционирование объектов, вращения, их закрепление и семантические пары объектов для имитации реалистичных отражений.
Создание датасета и обучение
Датасет MirrorGen2 создаётся путем размещения 3D-объектов из Objaverse и Amazon Berkeley Objects на текстурированных полах с HDRI-фонами и зеркалами, обеспечивая видимость и реалистичное освещение. Несколько объектов объединяются в семантически согласованные пары для симуляции окклюзий и пространственной сложности.
Обучение MirrorFusion 2.0 проходит в три этапа: сначала на синтетических сценах с одним объектом, затем на сценах с несколькими объектами для обучения работе с окклюзиями, и, наконец, дополнительная настройка на реальных данных (датасет MSD) с картами глубины. Такой подход улучшает генерализацию и точность отражений.
Оценка и результаты
MirrorFusion 2.0 превосходит предыдущие модели по количественным метрикам (PSNR, SSIM, LPIPS) и качественным тестам на датасетах MirrorBenchV2, GSO и MSD. Модель сохраняет пространственную целостность, точную геометрию и реалистичные отражения даже на сложных и новых сценах. Пользовательское исследование показало, что 84% пользователей предпочли результаты MirrorFusion 2.0 по сравнению с базовой моделью.
Ограничения и перспективы
Несмотря на улучшения, проблема отражений остаётся сложной из-за архитектурных ограничений диффузионных моделей и зависимости от обучающих данных. Улучшение разнообразия и аннотации данных, связанных с отражениями, может повысить качество будущих моделей. Однако распределение ресурсов между различными проблемами физического моделирования в LDM остаётся непростой задачей.
Проект MirrorVerse и модель MirrorFusion 2.0 представляют значительный прогресс в создании диффузионных моделей, способных реалистично отражать окружающий мир, хотя для достижения качества структурных методов, таких как NeRF и Gaussian Splatting, предстоит ещё много работы.
Switch Language
Read this article in English