<НА ГЛАВНУЮ

Hugging Face представила nanoVLM: обучайте модель для обработки изображений и текста всего в 750 строках PyTorch-кода

Hugging Face выпустила nanoVLM — компактную PyTorch-библиотеку для обучения модели, работающей с изображениями и текстом, всего на 750 строках кода, сочетая эффективность, прозрачность и хорошую производительность.

Представляем nanoVLM: Минималистичная библиотека для моделей «визуальный язык»

Hugging Face выпустила nanoVLM — компактную и образовательную библиотеку на PyTorch, которая позволяет обучать модели, работающие с изображениями и текстом, с нуля всего на 750 строках кода. Проект вдохновлен nanoGPT Андрея Карпаты и делает ставку на читаемость и модульность без ущерба для практического применения.

Основная архитектура и компоненты

В основе nanoVLM лежат три ключевых компонента: визуальный энкодер, легкий языковой декодер и слой проекции, связывающий их. Визуальный энкодер основан на трансформере SigLIP-B/16, известном своей эффективностью в извлечении признаков из изображений. Он преобразует изображения в векторные представления, пригодные для обработки языком.

С языковой стороны используется SmolLM2 — трансформер-декодер с причинной структурой, оптимизированный для простоты и эффективности. Несмотря на компактность, он способен генерировать связные и контекстно релевантные описания изображений.

Слой проекции выравнивает векторные представления изображений в пространство входных данных языковой модели, обеспечивая взаимодействие двух модальностей. Архитектура прозрачна и модульна, что отлично подходит для обучения и быстрой разработки.

Результаты и производительность

Несмотря на простоту, nanoVLM показывает конкурентоспособные результаты. Обученный на 1,7 миллионах пар «изображение-текст» из открытого датасета the_cauldron, он достигает 35,3% точности по бенчмарку MMStar. Это сопоставимо с более крупными моделями, такими как SmolVLM-256M, но требует меньше параметров и вычислительных ресурсов.

Предоставленная предобученная модель nanoVLM-222M содержит 222 миллиона параметров, что обеспечивает баланс между масштабом и эффективностью. Это доказывает, что продуманная архитектура может дать хорошие базовые результаты в задачах мульти-модального ИИ без больших затрат.

Образовательный и расширяемый инструмент

В отличие от сложных производственных фреймворков, nanoVLM делает акцент на прозрачности и минимальной абстракции. Каждый компонент четко определен, что облегчает понимание потока данных и логики модели. Это делает nanoVLM отличным инструментом для обучения, исследований и воркшопов.

Модульный дизайн позволяет заменять визуальные энкодеры, языковые декодеры или механизмы проекции, что делает nanoVLM отличной платформой для исследований в областях кросс-модального поиска, zero-shot описания и мульти-модальных агентов.

Открытость и поддержка сообщества

В духе открытости Hugging Face, исходный код и предобученные модели nanoVLM доступны на GitHub и Hugging Face Hub. Это обеспечивает удобную интеграцию с такими инструментами, как Transformers, Datasets и Inference Endpoints, упрощая использование и дообучение.

С активной поддержкой сообщества nanoVLM имеет все шансы развиваться благодаря вкладу преподавателей, исследователей и разработчиков, стимулируя инновации в области мульти-модального ИИ.

🇬🇧

Switch Language

Read this article in English

Switch to English