<НА ГЛАВНУЮ

Ming-Lite-Uni: Революционный открытый AI-фреймворк для объединения текста и визуальных данных

Ming-Lite-Uni — инновационный открытый AI-фреймворк, объединяющий текст и визуальные данные с помощью авторегрессионной мультимодальной структуры, обеспечивая качественную генерацию и редактирование изображений с учетом контекста.

Развитие мультимодального ИИ

Мультимодальный ИИ быстро развивается, создавая системы, способные понимать, генерировать и отвечать с использованием различных типов данных — текста, изображений, видео и аудио — в рамках одного взаимодействия. Это облегчает более естественное общение человека с ИИ, особенно когда пользователи все чаще используют ИИ для таких задач, как описание изображений, редактирование фотографий на основе текста и перенос стиля. Главная задача — обеспечить обработку и взаимодействие с разными модальностями в реальном времени, объединяя функции, которые ранее выполнялись раздельными моделями.

Проблемы объединения языковых и визуальных моделей

Ключевая сложность — согласовать глубокое семантическое понимание языковых моделей с высоким качеством визуального воспроизведения, необходимым для синтеза или редактирования изображений. Отдельные модели часто дают несогласованные результаты: визуальная модель может точно воспроизвести изображение, но пропустить тонкие инструкции, а языковая — понять смысл, но не визуализировать его. Обучение моделей по отдельности также затрудняет масштабирование, требуя больших вычислительных ресурсов и повторного обучения для каждой области.

Предыдущие подходы и их ограничения

Недавние попытки объединить зрение и язык включают комбинирование фиксированных визуальных энкодеров с диффузионными декодерами, как в TokenFlow и Janus. Хотя они создают точные по пикселям изображения, им не хватает семантической глубины и контекстного понимания. Модели вроде GPT-4o внедрили нативное создание изображений, но интеграция по-прежнему ограничена, и перевод абстрактных текстовых подсказок в осмысленные визуальные образы без разрывов в пайплайне остается сложной задачей.

Представляем Ming-Lite-Uni

Исследователи из Inclusion AI и Ant Group разработали Ming-Lite-Uni — открытый фреймворк, объединяющий текст и зрение через авторегрессионную мультимодальную структуру. Система построена на основе фиксированной крупной языковой модели и тонко настроенного генератора изображений на базе диффузии, используя два основных фреймворка — MetaQueries и M2-omni. Важное нововведение — многоуровневые обучаемые токены, выступающие в роли интерпретируемых визуальных единиц, и стратегия многоуровневого выравнивания для сохранения согласованности между различными масштабами изображения.

Основные механизмы

Визуальные данные сжимаются в структурированные последовательности токенов на нескольких масштабах — 4×4, 8×8 и 16×16 патчей, отражающих разные уровни детализации от общей компоновки до текстур. Эти токены обрабатываются вместе с текстовыми токенами большим авторегрессионным трансформером. Каждый уровень разрешения отмечается уникальными стартовыми и конечными токенами с индивидуальными позиционными кодировками. Стратегия многоуровневого выравнивания с использованием среднеквадратичной ошибки обеспечивает согласованность между слоями, улучшая качество реконструкции изображений более чем на 2 дБ по PSNR и повышая оценки генерации на 1,5%. В отличие от других систем, Ming-Lite-Uni сохраняет языковую модель неизменной и тонко настраивает только генератор изображений, что ускоряет обновления и повышает эффективность масштабирования.

Производительность и обучающие данные

Ming-Lite-Uni успешно справляется с различными мультимодальными задачами: генерация изображений по тексту, перенос стиля, детальное редактирование с инструкциями вроде «надень на овцу крошечные солнцезащитные очки» или «удали два цветка на изображении». Модель также уверенно работает с абстрактными и стилистическими запросами, такими как «в стиле Хаяо Миядзаки» или «милый 3D». Обучающий набор данных включает более 2,25 миллиарда примеров из LAION-5B, COYO, Zero, Midjourney, Wukong и других источников, дополненных специализированными наборами для оценки эстетики (AVA, TAD66K, AesMMIT, APDD), что повышает визуальную привлекательность результатов.

Значение и перспективы

Благодаря выравниванию представлений изображения и текста на уровне токенов в разных масштабах, Ming-Lite-Uni достигает семантической устойчивости и высокого разрешения изображений за один проход. Этот подход позволяет выполнять сложное редактирование с контекстным управлением, используя FlowMatching loss и масштабно-специфичные маркеры границ, которые улучшают взаимодействие трансформера и диффузионных слоев. Модель является важным шагом на пути к практическим мультимодальным ИИ.

Основные выводы

  • Единая авторегрессионная архитектура для задач зрения и языка.
  • Многоуровневые обучаемые токены для кодирования визуальных данных разных разрешений.
  • Неразмороженная языковая модель, тонкая настройка диффузионного генератора изображений.
  • Многоуровневое выравнивание улучшает согласованность и качество изображений.
  • Обучение на большом наборе из более 2,25 миллиарда примеров.
  • Поддержка генерации изображений по тексту, редактирования и визуальных вопросов с высокой контекстной осведомленностью.
  • Включение данных об эстетической оценке для создания визуально привлекательных результатов.
  • Открытый доступ к весам модели и реализации для сообщества.

Изучите полную статью, модель на Hugging Face и репозиторий на GitHub для подробностей.

🇬🇧

Switch Language

Read this article in English

Switch to English