Hugging Face представила nanoVLM: обучайте модель для обработки изображений и текста всего в 750 строках PyTorch-кода
Hugging Face выпустила nanoVLM — компактную PyTorch-библиотеку для обучения модели, работающей с изображениями и текстом, всего на 750 строках кода, сочетая эффективность, прозрачность и хорошую производительность.
Представляем nanoVLM: Минималистичная библиотека для моделей «визуальный язык»
Hugging Face выпустила nanoVLM — компактную и образовательную библиотеку на PyTorch, которая позволяет обучать модели, работающие с изображениями и текстом, с нуля всего на 750 строках кода. Проект вдохновлен nanoGPT Андрея Карпаты и делает ставку на читаемость и модульность без ущерба для практического применения.
Основная архитектура и компоненты
В основе nanoVLM лежат три ключевых компонента: визуальный энкодер, легкий языковой декодер и слой проекции, связывающий их. Визуальный энкодер основан на трансформере SigLIP-B/16, известном своей эффективностью в извлечении признаков из изображений. Он преобразует изображения в векторные представления, пригодные для обработки языком.
С языковой стороны используется SmolLM2 — трансформер-декодер с причинной структурой, оптимизированный для простоты и эффективности. Несмотря на компактность, он способен генерировать связные и контекстно релевантные описания изображений.
Слой проекции выравнивает векторные представления изображений в пространство входных данных языковой модели, обеспечивая взаимодействие двух модальностей. Архитектура прозрачна и модульна, что отлично подходит для обучения и быстрой разработки.
Результаты и производительность
Несмотря на простоту, nanoVLM показывает конкурентоспособные результаты. Обученный на 1,7 миллионах пар «изображение-текст» из открытого датасета the_cauldron, он достигает 35,3% точности по бенчмарку MMStar. Это сопоставимо с более крупными моделями, такими как SmolVLM-256M, но требует меньше параметров и вычислительных ресурсов.
Предоставленная предобученная модель nanoVLM-222M содержит 222 миллиона параметров, что обеспечивает баланс между масштабом и эффективностью. Это доказывает, что продуманная архитектура может дать хорошие базовые результаты в задачах мульти-модального ИИ без больших затрат.
Образовательный и расширяемый инструмент
В отличие от сложных производственных фреймворков, nanoVLM делает акцент на прозрачности и минимальной абстракции. Каждый компонент четко определен, что облегчает понимание потока данных и логики модели. Это делает nanoVLM отличным инструментом для обучения, исследований и воркшопов.
Модульный дизайн позволяет заменять визуальные энкодеры, языковые декодеры или механизмы проекции, что делает nanoVLM отличной платформой для исследований в областях кросс-модального поиска, zero-shot описания и мульти-модальных агентов.
Открытость и поддержка сообщества
В духе открытости Hugging Face, исходный код и предобученные модели nanoVLM доступны на GitHub и Hugging Face Hub. Это обеспечивает удобную интеграцию с такими инструментами, как Transformers, Datasets и Inference Endpoints, упрощая использование и дообучение.
С активной поддержкой сообщества nanoVLM имеет все шансы развиваться благодаря вкладу преподавателей, исследователей и разработчиков, стимулируя инновации в области мульти-модального ИИ.
Switch Language
Read this article in English