Архитектура WINGS: решение проблемы забывания текста в мультимодальных крупных языковых моделях

Мультимодальные крупные языковые модели: объединение текста и визуала

Крупные языковые модели (LLM) выходят за рамки работы с текстом и начинают понимать изображения, создавая мультимодальные модели (MLLM), которые способны одновременно интерпретировать визуальные и текстовые данные. Это расширяет возможности ИИ в образовании, создании контента и интерактивных помощниках.

Проблема забывания текста

Внедрение визуальных данных приводит к проблеме, известной как забывание текста. Когда в последовательность текста добавляются визуальные токены, внимание модели смещается в сторону изображений, что ухудшает результаты на задачах, связанных только с текстом: понимание, рассуждение и ответы на вопросы.

Существующие подходы и их недостатки

Существующие методы борьбы с забыванием текста включают дообучение на большом объёме чисто текстовых данных, чередование обучения на текстовых и мультимодальных данных, а также использование адаптеров или prompt-тюнинга. Однако эти методы увеличивают сложность и стоимость обучения и не всегда восстанавливают текстовое понимание из-за изменения внимания модели при появлении визуальных токенов.

WINGS: двойной обучающий модуль для сбалансированного внимания

Исследователи из Alibaba и Нанкинского университета предложили архитектуру WINGS, которая добавляет два модуля — визуальный и текстовый обучающие — в каждый слой MLLM. Эти модули работают параллельно с основным механизмом внимания, напоминая "крылья" по бокам слоёв внимания. Модуль маршрутизации динамически регулирует распределение внимания между визуальными и текстовыми модулями в зависимости от состава входных токенов.

Эффективность с помощью Low-Rank Residual Attention (LoRRA)

Архитектура WINGS использует Low-Rank Residual Attention (LoRRA) для эффективных вычислений и выделения модально-специфичной информации. Обучение проходит в два этапа: сначала активируются только визуальные обучающие, затем оба обучающих модуля совместно с маршрутизатором, который распределяет внимание. Каждый модуль обрабатывает либо изображение, либо текст с помощью лёгких блоков внимания, а их выходы объединяются с основным модельным выводом, обеспечивая, что визуальное внимание не подавляет текстовое.

Значительные улучшения в производительности

WINGS продемонстрировала заметный рост показателей по различным бенчмаркам. На MMLU текстовый результат вырос на 9.70 пунктов до 60.53, на CMMLU — на 9.36 до 69.82. В задачах рассуждения Race-High и WSC рост составил 11.9 и 11.12 пунктов соответственно. В мультимодальных тестах MMMU-VAL улучшение составило 4.78 пункта. Также WINGS лучше справлялась с диалогами, содержащими текст и изображения, на бенчмарке IIT по сравнению с другими открытыми MLLM того же масштаба.

Архитектура WINGS устанавливает новый стандарт сбалансированных и эффективных мультимодальных языковых моделей, успешно решая проблему забывания текста за счёт двойного обучающего подхода и маршрутизации внимания.