NVIDIA Представляет Describe Anything 3B: Продвинутая Мультимодальная Модель для Точного Описания Изображений и Видео

Проблемы с Локализованным Описанием

Точное описание отдельных участков изображений и видео долгое время оставалось сложной задачей для моделей, работающих с визуальными и языковыми данными. Универсальные модели хорошо справляются с общими подписями, но испытывают трудности с детальными, локализованными описаниями. Проблема усугубляется в видео из-за временной динамики и частых перекрытий объектов. Основные трудности включают потерю мелких деталей при извлечении визуальных признаков, недостаток аннотированных данных для региональных описаний и методы оценки, которые иногда занижают качество из-за неполных эталонных подписей.

Представляем Describe Anything 3B

NVIDIA разработала Describe Anything 3B (DAM-3B) — мультимодальную большую языковую модель, ориентированную на детальное локализованное описание изображений и видео. Вместе с DAM-3B-Video система принимает указания регионов через точки, рамки, зарисовки или маски и генерирует контекстно обоснованные описания. Модель поддерживает как статичные изображения, так и динамичные видео и доступна на Hugging Face.

Архитектура и Нововведения

DAM-3B включает два ключевых компонента: фокальный промпт и локализованный визуальный бэкбон с управляемым перекрестным вниманием. Фокальный промпт объединяет полное изображение с высококачественным увеличенным участком целевого региона, сохраняя детали региона и общий контекст. Локализованный визуальный бэкбон обрабатывает изображение и маску, применяя перекрестное внимание для объединения глобальных и локальных признаков перед передачей в большую языковую модель. Такой подход сохраняет вычислительную эффективность, не увеличивая длину токенов.

DAM-3B-Video расширяет архитектуру для работы с временными последовательностями, кодируя маски регионов по кадрам и интегрируя их во времени. Это обеспечивает точное описание регионов даже при движении и перекрытиях в видео.

Данные для Обучения и Оценка

Для решения проблемы нехватки данных NVIDIA разработала pipeline DLC-SDP — полуавтоматическую стратегию генерации данных. Этот двухэтапный процесс использует сегментационные датасеты и неаннотированные изображения из интернета, формируя корпус из 1.5 миллиона локализованных примеров. Самообучающийся метод уточняет описания регионов, обеспечивая их высокое качество.

Для оценки введён DLC-Bench, который проверяет корректность атрибутов вместо строгого совпадения с эталонными подписями. DAM-3B превосходит такие модели, как GPT-4o и VideoRefer, по семи бенчмаркам, демонстрируя высокие результаты в ключевых словах (LVIS, PACO), фразах (Flickr30k Entities) и многофразовых локализованных подписях (Ref-L4, HC-STVG). По DLC-Bench модель достигает средней точности 67.3%, лидируя по детализации и точности.

Значение для Отрасли

Describe Anything 3B решает давние проблемы локализованного описания, сочетая контекстно-осведомлённую архитектуру с масштабируемым и качественным пайплайном данных. Модель применима в таких сферах, как инструменты доступности, робототехника и анализ видео. Выпуск NVIDIA предоставляет надёжный эталон и задаёт техническое направление для будущих мультимодальных ИИ-систем.