Ming-Lite-Uni: Революционный открытый AI-фреймворк для объединения текста и визуальных данных
Ming-Lite-Uni — инновационный открытый AI-фреймворк, объединяющий текст и визуальные данные с помощью авторегрессионной мультимодальной структуры, обеспечивая качественную генерацию и редактирование изображений с учетом контекста.
Развитие мультимодального ИИ
Мультимодальный ИИ быстро развивается, создавая системы, способные понимать, генерировать и отвечать с использованием различных типов данных — текста, изображений, видео и аудио — в рамках одного взаимодействия. Это облегчает более естественное общение человека с ИИ, особенно когда пользователи все чаще используют ИИ для таких задач, как описание изображений, редактирование фотографий на основе текста и перенос стиля. Главная задача — обеспечить обработку и взаимодействие с разными модальностями в реальном времени, объединяя функции, которые ранее выполнялись раздельными моделями.
Проблемы объединения языковых и визуальных моделей
Ключевая сложность — согласовать глубокое семантическое понимание языковых моделей с высоким качеством визуального воспроизведения, необходимым для синтеза или редактирования изображений. Отдельные модели часто дают несогласованные результаты: визуальная модель может точно воспроизвести изображение, но пропустить тонкие инструкции, а языковая — понять смысл, но не визуализировать его. Обучение моделей по отдельности также затрудняет масштабирование, требуя больших вычислительных ресурсов и повторного обучения для каждой области.
Предыдущие подходы и их ограничения
Недавние попытки объединить зрение и язык включают комбинирование фиксированных визуальных энкодеров с диффузионными декодерами, как в TokenFlow и Janus. Хотя они создают точные по пикселям изображения, им не хватает семантической глубины и контекстного понимания. Модели вроде GPT-4o внедрили нативное создание изображений, но интеграция по-прежнему ограничена, и перевод абстрактных текстовых подсказок в осмысленные визуальные образы без разрывов в пайплайне остается сложной задачей.
Представляем Ming-Lite-Uni
Исследователи из Inclusion AI и Ant Group разработали Ming-Lite-Uni — открытый фреймворк, объединяющий текст и зрение через авторегрессионную мультимодальную структуру. Система построена на основе фиксированной крупной языковой модели и тонко настроенного генератора изображений на базе диффузии, используя два основных фреймворка — MetaQueries и M2-omni. Важное нововведение — многоуровневые обучаемые токены, выступающие в роли интерпретируемых визуальных единиц, и стратегия многоуровневого выравнивания для сохранения согласованности между различными масштабами изображения.
Основные механизмы
Визуальные данные сжимаются в структурированные последовательности токенов на нескольких масштабах — 4×4, 8×8 и 16×16 патчей, отражающих разные уровни детализации от общей компоновки до текстур. Эти токены обрабатываются вместе с текстовыми токенами большим авторегрессионным трансформером. Каждый уровень разрешения отмечается уникальными стартовыми и конечными токенами с индивидуальными позиционными кодировками. Стратегия многоуровневого выравнивания с использованием среднеквадратичной ошибки обеспечивает согласованность между слоями, улучшая качество реконструкции изображений более чем на 2 дБ по PSNR и повышая оценки генерации на 1,5%. В отличие от других систем, Ming-Lite-Uni сохраняет языковую модель неизменной и тонко настраивает только генератор изображений, что ускоряет обновления и повышает эффективность масштабирования.
Производительность и обучающие данные
Ming-Lite-Uni успешно справляется с различными мультимодальными задачами: генерация изображений по тексту, перенос стиля, детальное редактирование с инструкциями вроде «надень на овцу крошечные солнцезащитные очки» или «удали два цветка на изображении». Модель также уверенно работает с абстрактными и стилистическими запросами, такими как «в стиле Хаяо Миядзаки» или «милый 3D». Обучающий набор данных включает более 2,25 миллиарда примеров из LAION-5B, COYO, Zero, Midjourney, Wukong и других источников, дополненных специализированными наборами для оценки эстетики (AVA, TAD66K, AesMMIT, APDD), что повышает визуальную привлекательность результатов.
Значение и перспективы
Благодаря выравниванию представлений изображения и текста на уровне токенов в разных масштабах, Ming-Lite-Uni достигает семантической устойчивости и высокого разрешения изображений за один проход. Этот подход позволяет выполнять сложное редактирование с контекстным управлением, используя FlowMatching loss и масштабно-специфичные маркеры границ, которые улучшают взаимодействие трансформера и диффузионных слоев. Модель является важным шагом на пути к практическим мультимодальным ИИ.
Основные выводы
- Единая авторегрессионная архитектура для задач зрения и языка.
- Многоуровневые обучаемые токены для кодирования визуальных данных разных разрешений.
- Неразмороженная языковая модель, тонкая настройка диффузионного генератора изображений.
- Многоуровневое выравнивание улучшает согласованность и качество изображений.
- Обучение на большом наборе из более 2,25 миллиарда примеров.
- Поддержка генерации изображений по тексту, редактирования и визуальных вопросов с высокой контекстной осведомленностью.
- Включение данных об эстетической оценке для создания визуально привлекательных результатов.
- Открытый доступ к весам модели и реализации для сообщества.
Изучите полную статью, модель на Hugging Face и репозиторий на GitHub для подробностей.
Switch Language
Read this article in English