CompleteMe: Революционный ИИ для восстановления и редактирования изображений людей

Продвинутое восстановление изображений людей с CompleteMe

Новаторское сотрудничество Университета Калифорнии в Мерседе и Adobe привело к созданию CompleteMe — системы завершения изображений людей на основе эталонных изображений. Эта технология специализируется на восстановлении и редактировании скрытых или закрытых частей изображений людей, что открывает возможности для виртуальной примерки, анимации и редактирования фотографий.

Как работает CompleteMe

CompleteMe использует двойную архитектуру U-Net в сочетании с блоком Region-Focused Attention (RFA), который фокусирует ресурсы модели на релевантных областях изображения. Система интегрирует несколько эталонных изображений, предоставляющих детальные пространственные признаки разных частей тела. Эти признаки избирательно маскируются и объединяются с глобальной семантической информацией, извлечённой с помощью CLIP, что позволяет воссоздавать отсутствующий контент с высокой визуальной точностью и семантической связностью.

Reference U-Net и Cohesive U-Net

Reference U-Net, инициализированный из Stable Diffusion 1.5 (без этапа диффузионного шума), кодирует несколько эталонных изображений, охватывающих разные части тела, в латентные представления признаков. Одновременно Cohesive U-Net обрабатывает маскированное исходное изображение и включает эталонные признаки через блок RFA и механизм раздельного кросс-внимания, основанный на IP-Adapter. Такая схема позволяет модели сохранять индивидуальность и мелкие детали при восстановлении закрытых участков человека.

Бенчмаркинг и оценка

Для оценки производительности исследователи создали новый эталонный датасет, отобранный из WPose и проекта UniHuman Adobe Research. Датасет включает маскированные исходные изображения с несколькими эталонными и сопровождающими текстовыми описаниями, сгенерированными большой языковой моделью LLaVA.

CompleteMe обучалась на 40 000 пар изображений с использованием моделей Stable Diffusion V1.5 и сравнивалась с современными методами как с эталонами, так и без них. Система получила лучшие результаты по большинству перцептивных и семантических метрик, включая CLIP-I, DINO, DreamSim и LPIPS, демонстрируя превосходное качество визуализации и сохранение идентичности, особенно при сложных позах и сложных узорах одежды.

Качественные результаты и пользовательское исследование

Качественное сравнение показало, что CompleteMe превосходит конкурентов, точно воспроизводя уникальные детали, такие как татуировки и узоры одежды, которые другие методы без эталонных изображений воспроизвести не могут. Пользовательское исследование с 15 аннотаторами и почти 2900 парами образцов подтвердило превосходство CompleteMe по качеству и сохранению идентичности по сравнению с Paint-by-Example, AnyDoor, LeftRefill и MimicBrush.

Ограничения и доступность

Несмотря на впечатляющие возможности, код CompleteMe не опубликован, и проект, по всей видимости, является проприетарным. Система основана на устаревшей архитектуре Stable Diffusion 1.5, которая остаётся популярной среди исследователей благодаря меньшим ограничениям и простоте обучения.

Итог

CompleteMe представляет собой значительный прорыв в области ИИ для восстановления и редактирования изображений людей, предлагая детализированные и семантически согласованные дополнения с использованием нескольких эталонных изображений и инновационных архитектурных решений для решения сложных задач с закрытыми участками на изображениях людей.