FineVision: Hugging Face выпустил открытый датасет на 24 млн примеров для обучения VLM

Кратко о FineVision

Hugging Face представил FineVision — полностью открытый мультимодальный датасет для обучения Vision-Language Models (VLM). Датасет объединяет более 200 источников в единый формат и прошел тщательную фильтрацию: 17,3 млн изображений, 24,3 млн сэмплов, 88,9 млн пар вопрос-ответ и около 9,5 млрд токенов ответов. По оценкам авторов, пересечение с тестовыми наборами бенчмарков составляет примерно 1%.

Масштаб, покрытие и новые навыки

FineVision занимает около 5 ТБ курированного контента и покрывает девять категорий: General VQA, OCR QA, Chart & Table reasoning, Science, Captioning, Grounding & Counting и GUI navigation. В датасет добавлены данные для задач нового класса, таких как навигация по GUI, указание (pointing) и счёт, что расширяет возможности моделей за пределы классического captioning и VQA.

Ключевые статистики:

Как строили FineVision

Пайплайн курирования состоял из трёх этапов:

Сбор и дополнение

Очистка

Оценка качества

Каждую QA-пару оценивали модели Qwen3-32B и Qwen2.5-VL-32B-Instruct по четырём осям:

Эти оценки позволяют собирать выборки для селективного обучения, но абляции показали, что сохранение полного набора данных, включая менее высоко оценённые сэмплы, обычно даёт лучшие результаты.

Производительность и сравнительные преимущества

FineVision сравнили с открытыми наборами вроде Cauldron, LLaVA-Vision и Cambrian. Основные выводы:

Инсайты по обучению

Значение для исследователей и разработчиков

FineVision снижает зависимость сообщества от проприетарных датасетов, предоставляя большую, прозрачную и воспроизводимую базу для обучения VLM. Это открывает путь к более честным сравнениям, экспериментам с различными смесями данных и ускоряет развитие задач, связанных с анализом документов, визуальным рассуждением и агентными мультимодальными приложениями.

Доступ и материалы

FineVision доступен на Hugging Face Hub и легко загружаем через библиотеку datasets. Проект сопровождается технической документацией, GitHub-репозиторием с примерами, кодом и ноутбуками, а также сообществом для обсуждений и обновлений.