Qwen-Image-Edit: новая 20B-модель Alibaba для точного редактирования изображений и синтеза новых ракурсов

Что умеет Qwen-Image-Edit

Модели для редактивного управления изображениями на основе инструкций меняют подход к работе с визуальным контентом. Выпущенная в августе 2025 года командой Qwen от Alibaba, Qwen-Image-Edit опирается на 20-миллиардную Qwen-Image и обеспечивает продвинутое семантическое и визуальное редактирование при высокой точности рендеринга текста на английском и китайском. Модель интегрирована с Qwen Chat и доступна через Hugging Face, что упрощает профессиональное создание контента — от разработки IP до исправления артефактов в сгенерированном артe.

Архитектура и ключевые новации

Qwen-Image-Edit расширяет архитектуру Multimodal Diffusion Transformer (MMDiT) Qwen-Image. Система сочетает Qwen2.5-VL (мультимодальная LLM) для текстового кондиционирования, VAE для токенизации изображения и основной MMDiT для совместного моделирования. Для редактирования введена двойная кодировка: Qwen2.5-VL извлекает высокоуровневые семантические признаки, а VAE — низкоуровневые реконструктивные детали; обе ветви объединяются в потоке изображений MMDiT. Такой подход обеспечивает баланс семантической согласованности и визуальной точности.

Модель также дополняет Multimodal Scalable RoPE (MSRoPE) размерностью кадра, чтобы различать изображение до и после редактирования, что поддерживает задачи типа text-image-to-image (TI2I). VAE дообучен на текстово-насыщенных данных и достигает 33.42 PSNR на общих изображениях и 36.63 на изображениях с текстом, превосходя FLUX-VAE и SD-3.5-VAE — это позволяет точно редактировать bilingvальный текст, сохраняя шрифт, размер и стиль.

Ключевые возможности

Семантическое и визуальное редактирование: поддерживает высокоуровневые семантические трансформации (перенос стиля, синтез новых ракурсов до 180 градусов, создание IP) и точные низкоуровневые правки (добавление/удаление/модификация элементов при сохранении неизменных областей).
Точное редактирование текста: двуязычная поддержка (китайский и английский) с сохранением оригинального шрифта, размера и стиля.
Сильные результаты на бенчмарках: модель показывает передовые результаты на множестве публичных тестов по редактированию изображений.

Тренировка и пайплайн данных

Модель использует кураторский датасет Qwen-Image из миллиардов пар изображений и текстов в доменах Nature, Design, People и Synthetic. Обучение объединяет задачи T2I, I2I и TI2I в мультизадачной парадигме и применяет семиступенчатый фильтр для качества и баланса. Стратегии синтетической генерации текстов (Pure, Compositional, Complex) помогают справляться с долгим хвостом китайских символов. Тренировочная платформа использует flow matching с Producer-Consumer архитектурой, затем — supervised fine-tuning и reinforcement learning (DPO и GRPO) для согласования предпочтений. Для задач редактирования добавлены синтез новых ракурсов и оценка глубины с учителем DepthPro.

Продвинутые возможности редактирования

Примеры включают создание MBTI-эмодзи из маскота с сохранением консистентности персонажа, 180-градусный синтез новых ракурсов с 15.11 PSNR на GSO, перенос стиля портретов (например, Studio Ghibli) и деликатные правки внешности как добавление реалистичных отражений или удаление тонких прядей волос. Двуязычные правки текста позволяют менять надписи на постерах или корректировать китайскую каллиграфию через ограничивающие боксы; связанные редактирования дают возможность пошаговых исправлений до точного результата.

Бенчмарки и оценки

Qwen-Image-Edit набирает 7.56 на GEdit-Bench-EN и 7.52 на CN, превосходя ряд конкурентов. На ImgEdit общая оценка 4.27 с сильными результатами по задачам замены объектов и смены стиля. Оценка глубины достигает 0.078 AbsRel на KITTI. Человеческие оценки ставят базовую модель высоко за рендеринг текста и следование инструкциям.

Развертывание и использование

Qwen-Image-Edit доступна через Hugging Face Diffusers. Пример использования:

from diffusers import QwenImageEditPipeline
import torch
from PIL import Image
 
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
pipeline.to(torch.bfloat16).to("cuda")
 
image = Image.open("input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
output = pipeline(image=image, prompt=prompt, num_inference_steps=50, true_cfg_scale=4.0).images
output.save("output.png")

Alibaba Cloud Model Studio предоставляет API для масштабируемого инференса. Проект лицензирован по Apache 2.0, а репозиторий GitHub содержит код для обучения и туториалы.

Перспективы

Единый подход к пониманию и генерации ставит Qwen-Image-Edit как шаг к более богатыми зрительно-языковым интерфейсам с потенциалом расширения на видео и 3D, что откроет новые рабочие процессы в AI-дизайне.