FastVLM от Apple: революция в моделях зрения и языка с высокой скоростью и точностью

Проблемы при работе с высокоразрешёнными изображениями в моделях зрения и языка

Модели зрения и языка (VLM) объединяют обработку текста и изображений, но работа с изображениями высокого разрешения вызывает серьёзные проблемы. Предобученные энкодеры часто неэффективны с такими изображениями из-за сложностей предобучения и больших вычислительных затрат. Большое количество визуальных токенов увеличивает задержки и время до первого токена (TTFT), которое включает задержку энкодера и время подготовки языковой модели.

Существующие методы и их ограничения

Модели, такие как Frozen, Florence, LLaVA, mPLUG-Owl, MiniGPT-4 и Cambrian-1, используют различные архитектуры — от кросс-внимания до авторегрессионных механизмов для объединения изображений и текста. Популярны визуальные трансформеры, предобученные на CLIP, включая варианты SigLIP, EVA-CLIP, InternViT и DFNCLIP. Для повышения эффективности применяются динамическое отсечение токенов и иерархические модели, такие как ConvNeXT и FastViT. Недавно появился ConvLLaVA — чисто сверточный энкодер для VLM.

FastVLM: оптимальный баланс разрешения, задержки и точности

Исследователи Apple создали FastVLM, который эффективно балансирует качество изображения, задержку и точность. FastVLM использует FastViTHD — гибридный энкодер, выдающий меньше токенов и сокращающий время кодирования высокоразрешённых изображений. Масштабируя входные изображения, FastVLM достигает оптимального баланса, улучшая TTFT в 3.2 раза в настройке LLaVA1.5 и превосходя LLaVA-OneVision при максимальном разрешении с той же языковой моделью на 0.5 миллиарда параметров. При этом TTFT ускоряется в 85 раз, а энкодер становится в 3.4 раза компактнее.

Архитектура и детали обучения

FastVLM обучается на одном узле с восемью GPU NVIDIA H100-80GB. Первый этап обучения занимает около 30 минут с декодером Qwen2-7B. FastViTHD улучшает FastViT за счёт дополнительного этапа с понижением разрешения, уменьшая размер тензоров для самовнимания в 32 раза вместо 16, что снижает задержку кодирования и сокращает количество токенов в 4 раза. Архитектура включает пять этапов: первые три — блоки RepMixer для эффективной обработки, последние два — многоголовые блоки самовнимания, обеспечивающие баланс между эффективностью и пониманием изображения высокого разрешения.

Результаты и сравнения с другими моделями

По сравнению с ConvLLaVA при одинаковой языковой модели и данных FastVLM показывает улучшение на 8.4% в TextVQA и 12.5% в DocVQA, при этом работает на 22% быстрее. На высоких разрешениях FastVLM обрабатывает данные в 2 раза быстрее ConvLLaVA на разных тестах. Он достигает или превосходит производительность MM1, используя промежуточное предобучение на 15 миллионах образцов и генерируя в 5 раз меньше токенов. FastVLM также обгоняет Cambrian-1, работая в 7.9 раза быстрее. С масштабированием инструкций результаты улучшаются при использовании в 2.3 раза меньшего количества визуальных токенов.

Эффективность и бенчмарки

FastVLM демонстрирует передовой баланс разрешения, задержки и точности на оборудовании M1 MacBook Pro. Гибридный энкодер FastViTHD, предобученный на усиленных данных изображений и текста, сокращает количество визуальных токенов с минимальной потерей точности. Это обеспечивает конкурентоспособную производительность по многим тестам VLM и значительные улучшения эффективности TTFT и параметров энкодера.

Более подробную информацию можно найти в оригинальной статье. Все заслуги принадлежат исследователям Apple.