Meta AI представляет Web-SSL: масштабируемое обучение визуальным представлениям без языка
Meta AI представила Web-SSL — семейство масштабируемых визуальных моделей, обученных без языка. Они показывают конкурентные результаты на мультимодальных задачах и ставят под вопрос необходимость языкового обучения.
Вызов зависимости от языка в моделях зрения
Контрастные языково-изображенческие модели, такие как CLIP, доминируют в обучении визуальных представлений, используя масштабные пары изображений и текста. Однако такая зависимость от языка вызывает сложности с получением данных, предположениями о необходимости языка и ограничениями масштабируемости. Визуальное самоконтролируемое обучение (SSL) предлагает альтернативу, обучаясь исключительно по изображениям без языковой разметки, но применяется меньше в мультимодальном понимании из-за пробелов в производительности, особенно в задачах оптического распознавания символов (OCR) и анализа графиков.
Представляем модели Web-SSL
Meta выпустила семейство моделей Web-SSL, включая архитектуры DINO и Vision Transformer (ViT) с масштабом от 300 миллионов до 7 миллиардов параметров. Модели обучаются только на изображениях из набора MetaCLIP (MC-2B), содержащего два миллиарда изображений, что позволяет напрямую сравнить их с CLIP, обученным на тех же данных с языковой разметкой. Цель — тщательно оценить потенциал чисто визуального самоконтролируемого обучения при большом масштабе.
Архитектура и обучение
WebSSL использует два подхода SSL: совместное встраивание (DINOv2) и маскированное моделирование (MAE). Модели обучаются на изображениях размером 224×224, а энкодер зрения фиксируется при оценке downstream-задач, чтобы выделить эффект предобучения. Обучение проходит на пяти размерах моделей (ViT-1B до ViT-7B) с использованием неразмеченных изображений MC-2B. Оценка проводится на Cambrian-1 — наборе из 16 задач VQA, охватывающих общее понимание зрения, рассуждения, OCR и интерпретацию графиков. Модели интегрированы в библиотеку transformers от Hugging Face для удобного использования.
Основные результаты
- Масштабирование: WebSSL показывает почти логарифмический рост производительности в задачах VQA с увеличением параметров, в то время как CLIP стабилизируется после 3 млрд параметров.
- Состав данных: Фильтрация обучающих данных до 1,3% изображений с текстом позволяет WebSSL опережать CLIP до +13,6% в задачах OCR и графиков, подчеркивая важность визуального текста, а не языковых меток.
- Обучение с высоким разрешением: Дополнительное обучение при 518px уменьшает разрыв с высокоразрешающими моделями, такими как SigLIP, особенно в задачах с документами.
- Вырождающееся соответствие языковым моделям: Несмотря на отсутствие языковой разметки, большие модели WebSSL лучше выравниваются с предобученными языковыми моделями (например, LLaMA-3), что говорит об имплицитном изучении семантики.
- Надежные результаты: WebSSL уверенно показывает себя на классификации (ImageNet-1k), сегментации (ADE20K) и оценке глубины (NYUv2), часто превосходя MetaCLIP и DINOv2 в сопоставимых условиях.
Значение для мультимодального обучения
Релиз Web-SSL доказывает, что масштабируемое визуальное самоконтролируемое обучение может конкурировать и иногда превосходить языково-супервизорные методы. Это бросает вызов предположению о необходимости языка для мультимодального понимания и акцентирует внимание на составе данных и масштабе модели. Предоставляя открытые модели разных размеров без зависимости от парных данных, Meta стимулирует новые исследования в области масштабируемого обучения без языка.
Ознакомьтесь с моделями WebSSL на Hugging Face, посетите репозиторий GitHub и прочитайте полную статью для подробностей.
Switch Language
Read this article in English