Salesforce Представляет BLIP3-o: Открытая Унифицированная Мультимодальная Модель с CLIP Эмбеддингами и Flow Matching для Понимания и Генерации Изображений

Объединение Видения и Языка с Унифицированными Мультимодальными Моделями

Мультимодальное моделирование направлено на создание систем, способных понимать и генерировать контент в визуальных и текстовых форматах. Такие модели интерпретируют визуальные сцены и создают новые изображения на основе естественных языковых подсказок, объединяя распознавание и генерацию изображений в единую архитектуру. Это устраняет необходимость в отдельных конвейерах и обеспечивает более связное взаимодействие между модальностями.

Сложности в Унифицированном Понимании и Генерации Изображений

Главная задача — разработать архитектуры, которые одинаково хорошо справляются и с пониманием, и с генерацией изображений, не теряя качества ни в одном из направлений. Модели должны уметь воспринимать сложные визуальные концепции и создавать качественные изображения, соответствующие подсказкам пользователя. Для этого необходимы эффективные представления изображений и методы обучения, поддерживающие обе задачи одновременно, обеспечивая согласованность семантического понимания и пиксельного синтеза.

Предыдущие Методы и Их Ограничения

Традиционные подходы часто используют вариационные автокодировщики (VAE) или энкодеры на базе CLIP для представления изображений. VAE хорошо реконструируют изображения, но захватывают низкоуровневые признаки, что приводит к менее информативным эмбеддингам. Энкодеры CLIP обеспечивают богатые семантические представления, обученные на больших наборах изображений и текстов, но не предназначены для реконструкции, что усложняет их использование в генерации без дополнительных моделей, например, диффузионных декодеров. Среднеквадратичная ошибка (MSE), часто применяемая для обучения, приводит к детерминированным результатам, ограничивая разнообразие и качество генерации.

Введение BLIP3-o: Новая Унифицированная Модель

Исследователи Salesforce Research совместно с Университетом Мэриленда и другими организациями представили BLIP3-o — семейство унифицированных мультимодальных моделей. BLIP3-o использует двухэтапную стратегию обучения: сначала осваивается понимание изображений, затем генерация. Модель применяет CLIP эмбеддинги в сочетании с диффузионным трансформером для создания новых изображений. Диффузионный модуль обучается отдельно при замороженном автогрессивном бэкбоне, чтобы избежать взаимного влияния задач.

Данные и Архитектура Модели

Была создана BLIP3o-60k — высококачественный датасет для инструкционного дообучения, сгенерированный GPT-4o, охватывающий сцены, объекты, жесты и текст. Разработаны две версии модели: 8-миллиардный параметр, обученный на проприетарных и публичных данных, и 4-миллиардный параметр, обученный только на открытых данных.

Пайплайн генерации изображений основан на больших языковых моделях Qwen2.5-VL. Подсказки преобразуются в визуальные признаки, которые уточняются с помощью Flow Matching диффузионного трансформера на базе архитектуры Lumina-Next, оптимизированной для скорости и качества с 3D ротационными позиционными эмбеддингами и grouped-query attention. Каждое изображение кодируется в 64 фиксированных семантических вектора, независимо от разрешения, что обеспечивает компактное хранение и эффективное декодирование.

Масштабное Обучение и Оценка

Обучение проводилось на большом наборе из 25 миллионов изображений из CC12M, SA-1B и JourneyDB, дополненных 30 миллионами проприетарных образцов для 8B модели. Набор для инструкционного обучения включает 60 тысяч примеров с сложными подсказками, созданными GPT-4o.

BLIP3-o показал выдающиеся результаты на бенчмарках. 8B модель достигла 0.84 по GenEval для согласования генерации, 0.62 по WISE для рассуждений, а также высоких результатов: MME-Perception (1682.6), MME-Cognition (647.1), MMMU (50.6), VQAv2 (83.1) и TextVQA (83.1). В человеческой оценке BLIP3-o 8B превосходил Janus Pro 7B по качеству изображений (50.4%) и соответствию подсказкам (51.5%) с статистической значимостью.

Значение и Открытый Доступ

BLIP3-o решает двойную задачу понимания и генерации изображений, объединяя CLIP эмбеддинги, Flow Matching и последовательное обучение. Модель достигает передовых результатов и предлагает эффективное полностью открытое решение для унифицированного мультимодального моделирования.

Изучайте статью, GitHub и модель на Hugging Face. Следите за командой в Twitter и присоединяйтесь к сообществу из 90 тысяч на ML SubReddit для новостей.