<НА ГЛАВНУЮ

LLaDA-V: Революция в мультимодальном ИИ с использованием чистой диффузионной языковой модели

LLaDA-V представляет новый чисто диффузионный подход к мультимодальному языковому моделированию, достигая впечатляющих результатов в визуальном обучении и рассуждениях по разным задачам.

Мультимодальные большие языковые модели и их вызовы

Мультимодальные большие языковые модели (MLLM) предназначены для обработки и генерации контента в различных форматах: текст, изображения, аудио и видео. Такие модели позволяют создавать продвинутые приложения, включая визуальные вопросы-ответы, генерацию подписей к изображениям и мультимодальные диалоговые системы, интегрируя информацию из разных источников. Однако интеграция визуальных данных в языковые модели при сохранении высокой производительности остаётся серьёзной задачей. Существующие модели часто испытывают трудности с балансом между пониманием языка и визуальными рассуждениями, а также требуют больших наборов данных для адаптации к конкретным задачам или доменам.

Ограничения существующих подходов

Большинство современных MLLM используют авторегрессивные методы, предсказывая токены последовательно, что усложняет обработку сложных мультимодальных контекстов. Альтернативные диффузионные модели изучались, но часто уступают в языковом понимании из-за архитектурных ограничений или недостаточной стратегии обучения. Это создаёт пространство для модели, основанной исключительно на диффузии, которая могла бы обеспечить конкурентоспособные мультимодальные рассуждения при правильном дизайне.

Представляем LLaDA-V: чисто диффузионная мультимодальная модель

Исследователи из Университета Жэньминь Китая и Ant Group разработали LLaDA-V — новую модель, основанную на маскированном языковом моделировании с диффузией, предназначенную для визуального обучения по инструкциям и мультимодальных рассуждений. Построенная на базе диффузионной модели LLaDA, LLaDA-V включает в себя визуальный энкодер и MLP-коннектор для проекции визуальных признаков в языковое пространство эмбеддингов, что обеспечивает эффективное мультимодальное выравнивание. Такой подход отличается от традиционных авторегрессивных моделей, нацеленных на повышение масштабируемости и эффективности использования данных.

Принцип работы LLaDA-V

LLaDA-V использует процесс маскированной диффузии, при котором текстовые ответы постепенно уточняются путём итеративного предсказания замаскированных токенов в обратном порядке — в отличие от последовательного предсказания токенов в авторегрессивных моделях. Обучение проходит в три этапа:

  1. Выравнивание визуальных и языковых эмбеддингов путём отображения визуальных признаков SigLIP2 в языковое пространство LLaDA.
  2. Тонкая настройка на 10 миллионах изображений и 2 миллионах мультимодальных примеров из MAmmoTH-VL.
  3. Улучшение рассуждений с использованием 900 тысяч пар вопросов и ответов из VisualWebInstruct с использованием смешанной стратегии данных.

Двунаправленное внимание улучшает понимание контекста и усиливает мультимодальное восприятие.

Производительность и оценки

LLaDA-V превзошла многие гибридные авторегрессивно-диффузионные и чисто диффузионные модели в 18 мультимодальных задачах. Она обошла LLaMA3-V во многих дисциплинарных знаниях и математических задачах, набрав 60,1 балла на MMStar по сравнению с 60,7 у Qwen2-VL, несмотря на использование меньшей языковой модели LLaDA-8B. Модель продемонстрировала высокую эффективность использования данных, достигая лучших результатов с меньшим количеством обучающих примеров. Несмотря на отставание в задачах понимания графиков, документов и реальных сцен, результаты LLaDA-V подтверждают её потенциал в мультимодальном ИИ.

Перспективы диффузионных моделей в мультимодальном ИИ

LLaDA-V доказывает, что чисто диффузионные архитектуры в сочетании с визуальным обучением по инструкциям могут эффективно решать задачи мультимодального обучения. Этот инновационный подход сочетает в себе сильные возможности рассуждений и эффективное обучение, открывая путь для дальнейших исследований вероятностных методов в сложных AI-приложениях.

Для подробностей ознакомьтесь с оригинальной статьёй и репозиторием на GitHub. Все заслуги принадлежат исследователям проекта.

🇬🇧

Switch Language

Read this article in English

Switch to English