Meta представила SAM 3: сегментация концепций по подсказке для изображений и видео
'Meta выпустила SAM 3 — единую 848M модель для сегментации и трекинга открытых концептов в изображениях и видео с поддержкой текстовых и визуальных подсказок.'
Что такое SAM 3
Meta AI представила Segment Anything Model 3 (SAM 3) — открытую унифицированную модель фундаментального уровня для сегментации по подсказке, которая оперирует визуальными концептами, а не только пикселями. SAM 3 обнаруживает, сегментирует и отслеживает каждую инстанцию концепта на изображениях и в видео с помощью текстовых подсказок и визуальных подсказок, таких как точки, боксы и примеры. По сравнению с SAM 2, SAM 3 способен находить все экземпляры открытых классов, например все 'красные бейсболки' в длинном видео, используя одну модель.
От интерактивных масок к сегментации концепций
Ранние версии Segment Anything были ориентированы на интерактивную сегментацию: пользователь кликал или рисовал рамку, и модель возвращала одну маску. Такой подход плохо масштабируется для задач, где нужно найти все экземпляры концепта в больших коллекциях изображений или видео. SAM 3 формализует Promptable Concept Segmentation (PCS): модель принимает концептуальные подсказки и возвращает маски экземпляров вместе со стабильными идентичностями для каждого совпадающего объекта на изображениях и в видео.
Концептуальные подсказки сочетают короткие именные фразы и визуальные примеры. Текстовые подсказки поддерживают детализированные фразы вроде 'желтый школьный автобус' или 'игрок в красном', а обрезки-примеры используются как положительные или отрицательные примеры для уточнения тонких визуальных различий. SAM 3 также может интегрироваться с мультимодальными крупными языковыми моделями, которые генерируют более длинные референтные выражения и затем сводят их к сжатым концептуальным подсказкам.
Архитектура, presence token и трекинг
SAM 3 содержит 848 миллионов параметров и включает детектор и трекер с общим визуальным энкодером. Детектор основан на архитектуре в духе DETR и условлен тремя входами: текстовыми подсказками, геометрическими подсказками и визуальными примерами. Такой подход отделяет базовое представление изображения от интерфейсов подсказок и позволяет одному бэкбону обслуживать множество задач сегментации.
Ключевое нововведение — presence token, компонент, который предсказывает, соответствует ли каждая кандидатная рамка или маска запрошенной концепции. Presence token особенно важен, когда текстовые подсказки описывают родственные сущности, например 'игрок в белом' и 'игрок в красном'. Presence token снижает путаницу между такими подсказками и улучшает точность в условиях открытого словаря. Признание (классификация кандидата как концепта) отделено от локализации (предсказание формы рамки и маски).
В видео SAM 3 повторно использует трекер на основе трансформера из SAM 2, но тесно связывает его с новым детектором. Трекер переносит идентичности экземпляров между кадрами и поддерживает интерактивное уточнение. Разделение детектора и трекера минимизирует взаимное вмешательство задач, хорошо масштабируется с увеличением данных и концептов и сохраняет интерактивный интерфейс для доработки точек и масок.
Наборы данных и бенчмарки SA-Co
Для обучения и оценки PCS Meta представляет семейство наборов данных и бенчмарков SA-Co. В бенчмарке SA-Co около 270 000 уникальных оцененных концептов, что более чем в 50 раз превышает покрытие предыдущих бенчмарков открытой сегментации по словарю. Каждое изображение или видео снабжено именными фразами и плотными масками экземпляров для всех объектов, соответствующих каждой фразе, включая отрицательные подсказки, где ни один объект не должен совпадать.
Meta также сообщает, что движок данных автоматически аннотировал более 4 млн уникальных концептов, делая SA-Co одной из крупнейших высококачественных корпусов для открытой сегментации по словарю. Движок сочетает крупные онтологии, автоматические проверки и hard negative mining, чтобы собрать разнообразные и сложные примеры, необходимые для обучения модели, которая устойчиво реагирует на разные текстовые подсказки в реальных сценах.
Результаты на изображениях и видео
На изображениях в бенчмарке SA-Co SAM 3 достигает примерно 75–80 процентов от человеческого уровня по метрике cgF1. Конкурирующие системы, такие как OWLv2, DINO-X и Gemini 2.5, значительно отстают. Например, в задаче обнаружения боксов SA-Co Gold SAM 3 демонстрирует cgF1 55.7 при OWLv2 24.5, DINO-X 22.5 и Gemini 2.5 14.4. Это показывает, что единая унифицированная модель может превосходить специализированные детекторы для задач открытой сегментации.
В видео SAM 3 тестируют на SA-V, YT-Temporal 1B, SmartGlasses, LVVIS и BURST с показателями cgF1, pHOTA, mAP и HOTA, подтверждая способность архитектуры работать как с PCS для изображений, так и с длительным трекингом в видео.
Последствия для платформ аннотации и продакшена
Платформы, ориентированные на данные и аннотацию, такие как Encord, CVAT, SuperAnnotate и Picsellia, уже интегрируют Segment Anything модели для автолейблинга и трекинга. SAM 3 с его сегментацией концепций по подсказке и унифицированным трекингом изображений и видео открывает возможности для бенчмаркинга и редакционных исследований: оценка сокращения стоимости разметки, измерение прироста качества при переходе с SAM 2 на SAM 3, а также расширение zero-shot и model-in-the-loop рабочих процессов для плотных видео датасетов и мультимодальных сценариев.
Коротко
SAM 3 объединяет сегментацию по концептам и трекинг в изображениях и видео в одной модели с 848M параметров. SA-Co предоставляет широкое покрытие концептов с около 270K оцененных концептов и более 4M автоматически аннотированных примеров. Архитектура с отделенным детектором на базе DETR и трекером в стиле SAM 2 с presence head делает SAM 3 практичным фундаментальным решением для агентов и продуктовых систем, работающих с открытым словарем сегментации.
Switch Language
Read this article in English