Meta AI представляет Web-SSL: масштабируемое обучение визуальным представлениям без языка

Вызов зависимости от языка в моделях зрения

Контрастные языково-изображенческие модели, такие как CLIP, доминируют в обучении визуальных представлений, используя масштабные пары изображений и текста. Однако такая зависимость от языка вызывает сложности с получением данных, предположениями о необходимости языка и ограничениями масштабируемости. Визуальное самоконтролируемое обучение (SSL) предлагает альтернативу, обучаясь исключительно по изображениям без языковой разметки, но применяется меньше в мультимодальном понимании из-за пробелов в производительности, особенно в задачах оптического распознавания символов (OCR) и анализа графиков.

Представляем модели Web-SSL

Meta выпустила семейство моделей Web-SSL, включая архитектуры DINO и Vision Transformer (ViT) с масштабом от 300 миллионов до 7 миллиардов параметров. Модели обучаются только на изображениях из набора MetaCLIP (MC-2B), содержащего два миллиарда изображений, что позволяет напрямую сравнить их с CLIP, обученным на тех же данных с языковой разметкой. Цель — тщательно оценить потенциал чисто визуального самоконтролируемого обучения при большом масштабе.

Архитектура и обучение

WebSSL использует два подхода SSL: совместное встраивание (DINOv2) и маскированное моделирование (MAE). Модели обучаются на изображениях размером 224×224, а энкодер зрения фиксируется при оценке downstream-задач, чтобы выделить эффект предобучения. Обучение проходит на пяти размерах моделей (ViT-1B до ViT-7B) с использованием неразмеченных изображений MC-2B. Оценка проводится на Cambrian-1 — наборе из 16 задач VQA, охватывающих общее понимание зрения, рассуждения, OCR и интерпретацию графиков. Модели интегрированы в библиотеку transformers от Hugging Face для удобного использования.

Основные результаты

Масштабирование: WebSSL показывает почти логарифмический рост производительности в задачах VQA с увеличением параметров, в то время как CLIP стабилизируется после 3 млрд параметров.
Состав данных: Фильтрация обучающих данных до 1,3% изображений с текстом позволяет WebSSL опережать CLIP до +13,6% в задачах OCR и графиков, подчеркивая важность визуального текста, а не языковых меток.
Обучение с высоким разрешением: Дополнительное обучение при 518px уменьшает разрыв с высокоразрешающими моделями, такими как SigLIP, особенно в задачах с документами.
Вырождающееся соответствие языковым моделям: Несмотря на отсутствие языковой разметки, большие модели WebSSL лучше выравниваются с предобученными языковыми моделями (например, LLaMA-3), что говорит об имплицитном изучении семантики.
Надежные результаты: WebSSL уверенно показывает себя на классификации (ImageNet-1k), сегментации (ADE20K) и оценке глубины (NYUv2), часто превосходя MetaCLIP и DINOv2 в сопоставимых условиях.

Значение для мультимодального обучения

Релиз Web-SSL доказывает, что масштабируемое визуальное самоконтролируемое обучение может конкурировать и иногда превосходить языково-супервизорные методы. Это бросает вызов предположению о необходимости языка для мультимодального понимания и акцентирует внимание на составе данных и масштабе модели. Предоставляя открытые модели разных размеров без зависимости от парных данных, Meta стимулирует новые исследования в области масштабируемого обучения без языка.

Ознакомьтесь с моделями WebSSL на Hugging Face, посетите репозиторий GitHub и прочитайте полную статью для подробностей.

Meta AI представляет Web-SSL: масштабируемое обучение визуальным представлениям без языка

Вызов зависимости от языка в моделях зрения

Представляем модели Web-SSL

Архитектура и обучение

Основные результаты

Значение для мультимодального обучения

Switch Language