UniME: Двухэтапная система для улучшения мультимодального обучения представлений с использованием MLLM

Проблемы в современных мультимодальных представлениях

Фреймворк CLIP сыграл ключевую роль в мультимодальном обучении представлений, особенно для задач поиска по изображениям и тексту. Однако у него есть ограничения: жёсткое ограничение на 77 токенов в тексте, двухэнкодерная архитектура, разделяющая обработку изображений и текста, а также ограниченное композиционное понимание, похожее на модели мешка слов. Эти ограничения снижают способность улавливать тонкие, чувствительные к инструкциям семантические связи. В то же время мультимодальные большие языковые модели (MLLM), такие как LLaVA, Qwen2-VL и CogVLM, делают шаг вперёд в визуально-языковом рассуждении, но их авторегрессивная задача предсказания следующего токена ограничивает обучение обобщаемых, переносимых эмбеддингов.

Современные инновации и сохраняющиеся проблемы

Последние исследования направлены на преодоление этих недостатков через новые архитектуры и стратегии обучения. Например, E5-V использует унимодальное контрастивное обучение для выравнивания кроссмодальных признаков, а VLM2Vec предлагает бенчмарк MMEB для преобразования продвинутых моделей визуально-языкового понимания в эффективные генераторы эмбеддингов. Модели вроде LLM2Vec и NV-Embed улучшают текстовые представления, изменяя механизмы внимания в автодекодерных LLM. Тем не менее, остаются трудности с обработкой длинных последовательностей, улучшением кроссмодального слияния и эффективным выделением сложных негативов в контрастивном обучении.

Фреймворк UniME: двухэтапный подход

Исследователи из Университета Сиднея, DeepGlint, Tongyi Lab в Alibaba и Имперского колледжа Лондона представляют UniME — новый двухэтапный фреймворк для улучшения мультимодального обучения представлений с помощью MLLM.

Первый этап: текстуальная дистилляция дискриминативных знаний Студент MLLM обучается с помощью текстовых подсказок под руководством сильной учительской LLM для улучшения качества текстовых эмбеддингов.
Второй этап: обучение с усилением сложных негативов и инструкциями Этот этап улучшает дискриминативные способности модели и умение следовать инструкциям за счёт фильтрации ложных негативов и выборки нескольких сложных негативов на пример. Также используются задачи с подсказками для повышения эффективности в задачах поиска и визуальных вопросов.

Оценка и результаты

Обучение UniME проводилось с использованием PyTorch и DeepSpeed на 8 GPU NVIDIA A100. Первый этап включал дистилляцию знаний на 273 000 пар из набора NLI, второй — обучение с отрицательными примерами на 662 000 мультимодальных пар. В роли учителя выступала модель NV-Embed V2. UniME оценивался на 36 датасетах бенчмарка MMEB и стабильно превосходил базовые модели, такие как E5-V и VLM2Vec.

Использование сложных негативов значительно повысило способность модели различать тонкие различия, особенно в задачах с длинными подписями и композиционным поиском. Абляционные исследования подтвердили эффективность обоих этапов обучения и настройки параметров.

Значение UniME