Обзор FLUX.2

Black Forest Labs представила FLUX.2 — второе поколение системы для генерации и редактирования изображений, ориентированной на реальные творческие рабочие процессы. Модель рассчитана на маркетинговые материалы, предметную фотографию, дизайн-макеты и сложные инфографики, поддерживая редактирование до 4 мегапикселей и точный контроль макета, логотипов и типографии.

Семейство продуктов и варианты развёртывания

Семейство FLUX.2 охватывает hosted API и открытые веса:

FLUX.2 [pro]: управляемый API-уровень с акцентом на качество, высокую адгезию к промпту и низкую стоимость инференса. Доступен в BFL Playground, BFL API и у партнёров.
FLUX.2 [flex]: открывает параметры, такие как число шагов и guidance scale, чтобы разработчики могли балансировать задержку, точность рендеринга текста и визуальную детализацию.
FLUX.2 [dev]: открытая контрольная точка, полученная от базовой модели FLUX.2. Объединяет text-to-image и мульти-изображенное редактирование в одном чекпойнте, содержит 32 миллиарда параметров.
FLUX.2 [klein]: грядущая Apache 2.0 версия, дистиллированная до меньших размеров для ограниченных окружений, сохраняя многие возможности.

Все варианты поддерживают редактирование изображений с помощью текста и нескольких референсов в одной модели, что устраняет необходимость в отдельных чекпойнтах для генерации и редактирования.

Архитектура и FLUX.2 VAE

FLUX.2 использует архитектуру latent flow matching. Дизайн связывает Mistral-3 24B vision-language модель с rectified flow трансформером, работающим на латентных представлениях изображений. VLM обеспечивает семантическое обоснование и знание о мире, в то время как трансформер изучает пространственную структуру, материалы и композицию.

Модель обучают отображать шумовые латенты в латенты изображения под управлением текста, поэтому та же архитектура поддерживает как синтез по тексту, так и редактирование. Для редактирования латенты инициализируются из существующих изображений и затем обновляются в процессе flow при сохранении структуры.

Новый FLUX.2 VAE определяет латентное пространство, сочетая обучаемость, качество реконструкции и сжатие. Этот автокодировщик выпущен отдельно на Hugging Face под лицензией Apache 2.0 и является базой для всех FLUX.2 flow-моделей; его также можно переиспользовать в других генеративных системах.

Возможности для продакшн-воркфлоу

Документация и интеграция с Diffusers выделяют несколько ключевых возможностей:

Поддержка множества референсов: можно комбинировать до 10 референсных изображений для сохранения идентичности персонажей, внешнего вида продуктов и стиля.
Фотореалистичная детализация до 4MP: модель генерирует и редактирует изображения до 4 мегапикселей с улучшенными текстурами, обработкой кожи, тканей, рук и освещения, подходящими для предметной фотосъёмки и фотореалистичных кейсов.
Надёжный рендеринг текста и макетов: способна рендерить сложную типографику, инфографику, мемы и интерфейсные макеты с мелким читаемым текстом.
Знание мира и пространственная логика: обучена на более приземлённом освещении, перспективе и композиции сцены, что уменьшает артефакты и синтетический вид.

Производительность, квантизация и интеграции

Инференс в полноточной точности требует более 80 ГБ VRAM. Тем не менее FLUX.2 [dev] поддерживает квантизованные пайплайны (4-bit и FP8) и оффлоадинг, что делает модель пригодной для 18–24 ГБ GPU, а при достаточном системном ОЗУ даже для 8 ГБ карт. Эти профили квантизации и оффлоадинга снижают барьер для практического развёртывания.

Релиз включает интеграции с Diffusers, ComfyUI, Cloudflare Workers и другими инструментами, а также доступ через BFL Playground и API.

Лицензирование и безопасность

Чекпойнт FLUX.2 [dev] доступен как открытый вес вместе с Apache 2.0 VAE. Основные веса модели распространяются под лицензией FLUX.2-dev Non Commercial с обязательной фильтрацией по безопасности.

Значение релиза

Объединяя 32B rectified flow трансформер, Mistral-3 24B vision-language модель и FLUX.2 VAE в одном высококачественном пайплайне, FLUX.2 приближает открытые визуальные модели к продакшн-уровню. Чёткие профили VRAM, квантизованные варианты и сильные интеграции делают систему практичной для реальных рабочих нагрузок, а не только для бенчмарков.

FLUX.2 — 32B flow-трансформер для продакшен-генерации и редактирования 4MP изображений