Jina-VLM: Прорыв в многодисциплинарном визуальном QA

Обзор

Jina AI представила Jina-VLM, модель визуального языкового моделирования с 2.4 миллиарда параметров, которая нацелена на многоязычное визуальное вопросительное ответы и понимание документов на ограниченном оборудовании. Модель сочетает в себе визуальный кодировщик SigLIP2 и языковую базу Qwen3, используя соединитель внимания для сокращения визуальных токенов при сохранении пространственной структуры. Среди открытых моделей масштабом 2 миллиарда она достигает передовых результатов на многоязычных бенчмарках, таких как MMMB и Multilingual MMBench.

Особенности архитектуры

Эффективность токенов с помощью внимания

Jina-VLM оптимизирует визуальную сторону для произвольного разрешения и низкого количества токенов. Визуальный кодировщик — SigLIP2 So400M/14 384, представляющий собой 27-слойный визуальный трансформер с примерно 400 миллионами параметров. Он обрабатывает обрезки размером 378×378 пикселей в сетку 27×27 из патчей 14×14, что дает 729 патч-токенов на плитку.

Для управления высокими разрешениями модель создает сетку из до 12 перекрывающихся плиток вместе с глобальным миниатюрой. Каждая плитка перекрывается на 112 пикселей и имеет шаг 266 пикселей, эффективно покрывая разрешение 1176×910 пикселей.

Соединитель языкового моделирования объединяет функции из двух промежуточных слоев, сокращая визуальные токены с 729 до 182 с помощью внимания.

Тренировочный процесс

Многоязычные данные

Тренировка проходит в два этапа без заморозки компонентов. Полный корпус включает около 5 миллионов мультимодальных примеров и 12 миллиардов текстовых токенов на более чем 30 языках. Половина текста на английском, остальные — китайский, арабский, немецкий и других.

Этап 1: Фокус на тренировке с согласованием с использованием данных с заголовками, таких как PixmoCap и PangeaIns.
Этап 2: Подробная настройка для визуального вопросительного ответа с помощью многоязычных наборов данных.

Производительность на бенчмарках

Основные моменты и ключевые показатели

На стандартных задачах VQA на английском языке Jina-VLM набирает 72.3 по 8 бенчмаркам, опережая модели масштабом 2 миллиарда. На многомодальных задачах она набирает 67.4 для множественного визуального вывода.

Общая производительность модели令人 впечатляет, набирая в среднем 78.8 на MMMB и 74.3 на Multilingual MMBench.

Таблица сравнения

| Модель | Параметры | VQA Avg | MMMB | Многоязычная MMB | DocVQA | OCRBench | |----------------|-----------|---------|------|------------------|--------|----------| | Jina-VLM | 2.4B | 72.3 | 78.8 | 74.3 | 90.6 | 778 | | Qwen2-VL-2B | 2.1B | 66.4 | 71.3 | 69.4 | 89.2 | 809 | | Qwen3-VL-2B | 2.8B | 71.6 | 75.0 | 72.3 | 92.3 | 858 | | InternVL3-2B | 2.2B | 69.2 | 73.6 | 71.9 | 87.4 | 835 | | InternVL3.5-2B | 2.2B | 71.6 | 74.6 | 70.9 | 88.5 | 836 |

Основные выводы

Jina-VLM — это модель на 2.4 миллиарда параметров, которая эффективно сокращает визуальные токены с помощью внимания, сохраняя пространственные структуры.
Она использует перекрывающиеся плитки 378×378 для обработки изображений разрешением до 4K, значительно снижая вычислительные затраты.
Тренировочный процесс включает 5 миллионов мультимодальных примеров в двух этапах.
Она превосходит в многоязычных бенчмарках, показывая лучшие показатели среди моделей масштаба 2 миллиарда.