FineVision: Hugging Face выпустил открытый датасет на 24 млн примеров для обучения VLM
Кратко о FineVision
Hugging Face представил FineVision — полностью открытый мультимодальный датасет для обучения Vision-Language Models (VLM). Датасет объединяет более 200 источников в единый формат и прошел тщательную фильтрацию: 17,3 млн изображений, 24,3 млн сэмплов, 88,9 млн пар вопрос-ответ и около 9,5 млрд токенов ответов. По оценкам авторов, пересечение с тестовыми наборами бенчмарков составляет примерно 1%.
Масштаб, покрытие и новые навыки
FineVision занимает около 5 ТБ курированного контента и покрывает девять категорий: General VQA, OCR QA, Chart & Table reasoning, Science, Captioning, Grounding & Counting и GUI navigation. В датасет добавлены данные для задач нового класса, таких как навигация по GUI, указание (pointing) и счёт, что расширяет возможности моделей за пределы классического captioning и VQA.
Ключевые статистики:
- Изображений: 17,3 млн
- Сэмплов: 24,3 млн
- Пар вопрос-ответ: 88,9 млн
- Токенов ответов: ~9,5 млрд
- Пересечение с бенчмарками: ~1%
Как строили FineVision
Пайплайн курирования состоял из трёх этапов:
Сбор и дополнение
- Собрали более 200 публичных датасетов с текстом и изображениями.
- Преобразовали отсутствующие модальности (например, только текст) в пары вопрос-ответ.
- Целенаправленно собрали данные для недостаточно представленных доменов, таких как GUI.
Очистка
- Удалили QA-пары больше 8192 токенов.
- Изображения сжали до максимума 2048 px с сохранением соотношения сторон.
- Отбросили повреждённые или некорректные сэмплы.
Оценка качества
Каждую QA-пару оценивали модели Qwen3-32B и Qwen2.5-VL-32B-Instruct по четырём осям:
- Качество форматирования текста
- Релевантность вопроса и ответа
- Зависимость от визуального контента
- Соответствие изображения и вопроса
Эти оценки позволяют собирать выборки для селективного обучения, но абляции показали, что сохранение полного набора данных, включая менее высоко оценённые сэмплы, обычно даёт лучшие результаты.
Производительность и сравнительные преимущества
FineVision сравнили с открытыми наборами вроде Cauldron, LLaVA-Vision и Cambrian. Основные выводы:
- Модели, обученные на FineVision, значительно превосходят аналоги по ряду бенчмарков (AI2D, ChartQA, DocVQA, ScienceQA, OCRBench и др.), в отдельных случаях опережая LLaVA до 46.3%, Cauldron до 40.7% и Cambrian до 12.1%.
- После дедупликации уровень утечки данных у FineVision ниже (~1.02%) по сравнению с 2–3% у других датасетов.
Инсайты по обучению
- В экспериментах использовали nanoVLM (460M параметров) с SmolLM2-360M-Instruct как языковой частью и SigLIP2-Base-512 как визуальным энкодером.
- На 32 NVIDIA H100 один полный эпоховый проход (12k шагов) занимает примерно 20 часов.
- Модели, обученные на FineVision, стабильно улучшаются и обычно превосходят базовые модели после ~12k шагов.
- Многоязычные поднаборы дают небольшие преимущества, даже если языковая база преимущественно монолингвальна, что говорит в пользу разнообразия данных.
- Попытки многоступенчатого обучения (две или 2.5 стадии) не давали стабильных улучшений по сравнению с крупномасштабным одноэтапным обучением с разнообразными данными.
Значение для исследователей и разработчиков
FineVision снижает зависимость сообщества от проприетарных датасетов, предоставляя большую, прозрачную и воспроизводимую базу для обучения VLM. Это открывает путь к более честным сравнениям, экспериментам с различными смесями данных и ускоряет развитие задач, связанных с анализом документов, визуальным рассуждением и агентными мультимодальными приложениями.
Доступ и материалы
FineVision доступен на Hugging Face Hub и легко загружаем через библиотеку datasets. Проект сопровождается технической документацией, GitHub-репозиторием с примерами, кодом и ноутбуками, а также сообществом для обсуждений и обновлений.