X-Fusion: расширение замороженных языковых моделей с визуальными возможностями без потери языковых навыков

Развитие мультимодального ИИ с X-Fusion

Большие языковые модели (LLM) совершили прорыв в задачах разговорного ИИ, рассуждения и генерации кода. Однако человеческое общение часто включает визуальную информацию, которую LLM не способны обрабатывать. Для создания универсального ИИ модели должны одновременно работать с текстом и визуальными данными.

Проблемы обучения мультимодальных моделей

Создание объединённых моделей «визуальный-язык» с нуля, используя методы автогрессивного предсказания токенов или сочетания диффузионных и языковых потерь, требует огромных вычислительных ресурсов и повторной тренировки при добавлении новых модальностей. Адаптация предобученных LLM с визуальными возможностями — более эффективный путь, но часто ведёт к ухудшению языковой производительности.

Существующие подходы и их ограничения

Сейчас применяются три основные стратегии: объединение LLM с отдельными моделями генерации изображений, обучение больших мультимодальных моделей целиком или использование комбинации диффузионных и автогрессивных потерь. Они достигают высоких результатов, но требуют переобучения больших моделей или снижают основные языковые способности. Несмотря на потенциал, эти методы остаются неэффективными и негибкими.

Представляем X-Fusion: архитектура с двумя башнями

Исследователи из UCLA, Университета Висконсин-Мэдисон и Adobe Research разработали X-Fusion — подход, адаптирующий предобученные LLM для мультимодальных задач без потери языковых функций. X-Fusion использует архитектуру с двумя башнями: веса языковой модели замораживаются, а для обработки визуальной информации добавляется отдельная визуальная башня.

Текстовые и визуальные признаки выравниваются на нескольких уровнях, что улучшает результаты на задачах преобразования изображения в текст и текста в изображение. Изображения токенизируются с помощью предобученного энкодера, а токены обоих видов оптимизируются совместно. Опциональная операция X-Fuse объединяет признаки башен для повышения эффективности.

Обучение и оценка

X-Fusion обучается с использованием автогрессивных и денойзинговых потерь для изображений. Модель превосходит альтернативные архитектуры трансформеров — Single Tower, Gated Tower и Dual Projection — показывая на 23% лучшее значение FID без увеличения числа параметров.

Важные выводы из исследований

Исследование подчёркивает роль чистых изображений в обучении: снижение шума улучшает как понимание, так и генерацию изображений. Выравнивание визуальных признаков с предобученными энкодерами, такими как CLIP, ускоряет сходимость и повышает качество, особенно для небольших моделей.

X-Fusion — важный шаг в создании эффективных и гибких мультимодальных ИИ, сохраняющих языковые способности и одновременно обладающих мощной визуальной обработкой.