Jina-VLM: Прорыв в многодисциплинарном визуальном QA
Jina AI представила модель Jina-VLM с 2.4 миллиарда параметров для эффективного визуального вопросительного ответа.
Обзор
Jina AI представила Jina-VLM, модель визуального языкового моделирования с 2.4 миллиарда параметров, которая нацелена на многоязычное визуальное вопросительное ответы и понимание документов на ограниченном оборудовании. Модель сочетает в себе визуальный кодировщик SigLIP2 и языковую базу Qwen3, используя соединитель внимания для сокращения визуальных токенов при сохранении пространственной структуры. Среди открытых моделей масштабом 2 миллиарда она достигает передовых результатов на многоязычных бенчмарках, таких как MMMB и Multilingual MMBench.
Особенности архитектуры
Эффективность токенов с помощью внимания
Jina-VLM оптимизирует визуальную сторону для произвольного разрешения и низкого количества токенов. Визуальный кодировщик — SigLIP2 So400M/14 384, представляющий собой 27-слойный визуальный трансформер с примерно 400 миллионами параметров. Он обрабатывает обрезки размером 378×378 пикселей в сетку 27×27 из патчей 14×14, что дает 729 патч-токенов на плитку.
Для управления высокими разрешениями модель создает сетку из до 12 перекрывающихся плиток вместе с глобальным миниатюрой. Каждая плитка перекрывается на 112 пикселей и имеет шаг 266 пикселей, эффективно покрывая разрешение 1176×910 пикселей.
Соединитель языкового моделирования объединяет функции из двух промежуточных слоев, сокращая визуальные токены с 729 до 182 с помощью внимания.
Тренировочный процесс
Многоязычные данные
Тренировка проходит в два этапа без заморозки компонентов. Полный корпус включает около 5 миллионов мультимодальных примеров и 12 миллиардов текстовых токенов на более чем 30 языках. Половина текста на английском, остальные — китайский, арабский, немецкий и других.
- Этап 1: Фокус на тренировке с согласованием с использованием данных с заголовками, таких как PixmoCap и PangeaIns.
- Этап 2: Подробная настройка для визуального вопросительного ответа с помощью многоязычных наборов данных.
Производительность на бенчмарках
Основные моменты и ключевые показатели
На стандартных задачах VQA на английском языке Jina-VLM набирает 72.3 по 8 бенчмаркам, опережая модели масштабом 2 миллиарда. На многомодальных задачах она набирает 67.4 для множественного визуального вывода.
Общая производительность модели令人 впечатляет, набирая в среднем 78.8 на MMMB и 74.3 на Multilingual MMBench.
Таблица сравнения
| Модель | Параметры | VQA Avg | MMMB | Многоязычная MMB | DocVQA | OCRBench | |----------------|-----------|---------|------|------------------|--------|----------| | Jina-VLM | 2.4B | 72.3 | 78.8 | 74.3 | 90.6 | 778 | | Qwen2-VL-2B | 2.1B | 66.4 | 71.3 | 69.4 | 89.2 | 809 | | Qwen3-VL-2B | 2.8B | 71.6 | 75.0 | 72.3 | 92.3 | 858 | | InternVL3-2B | 2.2B | 69.2 | 73.6 | 71.9 | 87.4 | 835 | | InternVL3.5-2B | 2.2B | 71.6 | 74.6 | 70.9 | 88.5 | 836 |
Основные выводы
- Jina-VLM — это модель на 2.4 миллиарда параметров, которая эффективно сокращает визуальные токены с помощью внимания, сохраняя пространственные структуры.
- Она использует перекрывающиеся плитки 378×378 для обработки изображений разрешением до 4K, значительно снижая вычислительные затраты.
- Тренировочный процесс включает 5 миллионов мультимодальных примеров в двух этапах.
- Она превосходит в многоязычных бенчмарках, показывая лучшие показатели среди моделей масштаба 2 миллиарда.
Switch Language
Read this article in English