FLUX.2 — 32B flow-трансформер для продакшен-генерации и редактирования 4MP изображений
'Black Forest Labs выпустила FLUX.2 — 32-миллиардную модель для генерации и редактирования изображений до 4MP с поддержкой до 10 референсов и практичными вариантами развёртывания.'
Обзор FLUX.2
Black Forest Labs представила FLUX.2 — второе поколение системы для генерации и редактирования изображений, ориентированной на реальные творческие рабочие процессы. Модель рассчитана на маркетинговые материалы, предметную фотографию, дизайн-макеты и сложные инфографики, поддерживая редактирование до 4 мегапикселей и точный контроль макета, логотипов и типографии.
Семейство продуктов и варианты развёртывания
Семейство FLUX.2 охватывает hosted API и открытые веса:
- FLUX.2 [pro]: управляемый API-уровень с акцентом на качество, высокую адгезию к промпту и низкую стоимость инференса. Доступен в BFL Playground, BFL API и у партнёров.
- FLUX.2 [flex]: открывает параметры, такие как число шагов и guidance scale, чтобы разработчики могли балансировать задержку, точность рендеринга текста и визуальную детализацию.
- FLUX.2 [dev]: открытая контрольная точка, полученная от базовой модели FLUX.2. Объединяет text-to-image и мульти-изображенное редактирование в одном чекпойнте, содержит 32 миллиарда параметров.
- FLUX.2 [klein]: грядущая Apache 2.0 версия, дистиллированная до меньших размеров для ограниченных окружений, сохраняя многие возможности.
Все варианты поддерживают редактирование изображений с помощью текста и нескольких референсов в одной модели, что устраняет необходимость в отдельных чекпойнтах для генерации и редактирования.
Архитектура и FLUX.2 VAE
FLUX.2 использует архитектуру latent flow matching. Дизайн связывает Mistral-3 24B vision-language модель с rectified flow трансформером, работающим на латентных представлениях изображений. VLM обеспечивает семантическое обоснование и знание о мире, в то время как трансформер изучает пространственную структуру, материалы и композицию.
Модель обучают отображать шумовые латенты в латенты изображения под управлением текста, поэтому та же архитектура поддерживает как синтез по тексту, так и редактирование. Для редактирования латенты инициализируются из существующих изображений и затем обновляются в процессе flow при сохранении структуры.
Новый FLUX.2 VAE определяет латентное пространство, сочетая обучаемость, качество реконструкции и сжатие. Этот автокодировщик выпущен отдельно на Hugging Face под лицензией Apache 2.0 и является базой для всех FLUX.2 flow-моделей; его также можно переиспользовать в других генеративных системах.
Возможности для продакшн-воркфлоу
Документация и интеграция с Diffusers выделяют несколько ключевых возможностей:
- Поддержка множества референсов: можно комбинировать до 10 референсных изображений для сохранения идентичности персонажей, внешнего вида продуктов и стиля.
- Фотореалистичная детализация до 4MP: модель генерирует и редактирует изображения до 4 мегапикселей с улучшенными текстурами, обработкой кожи, тканей, рук и освещения, подходящими для предметной фотосъёмки и фотореалистичных кейсов.
- Надёжный рендеринг текста и макетов: способна рендерить сложную типографику, инфографику, мемы и интерфейсные макеты с мелким читаемым текстом.
- Знание мира и пространственная логика: обучена на более приземлённом освещении, перспективе и композиции сцены, что уменьшает артефакты и синтетический вид.
Производительность, квантизация и интеграции
Инференс в полноточной точности требует более 80 ГБ VRAM. Тем не менее FLUX.2 [dev] поддерживает квантизованные пайплайны (4-bit и FP8) и оффлоадинг, что делает модель пригодной для 18–24 ГБ GPU, а при достаточном системном ОЗУ даже для 8 ГБ карт. Эти профили квантизации и оффлоадинга снижают барьер для практического развёртывания.
Релиз включает интеграции с Diffusers, ComfyUI, Cloudflare Workers и другими инструментами, а также доступ через BFL Playground и API.
Лицензирование и безопасность
Чекпойнт FLUX.2 [dev] доступен как открытый вес вместе с Apache 2.0 VAE. Основные веса модели распространяются под лицензией FLUX.2-dev Non Commercial с обязательной фильтрацией по безопасности.
Значение релиза
Объединяя 32B rectified flow трансформер, Mistral-3 24B vision-language модель и FLUX.2 VAE в одном высококачественном пайплайне, FLUX.2 приближает открытые визуальные модели к продакшн-уровню. Чёткие профили VRAM, квантизованные варианты и сильные интеграции делают систему практичной для реальных рабочих нагрузок, а не только для бенчмарков.
Switch Language
Read this article in English