Как DINOv3 помогает понять визуальную обработку в мозге

Обзор исследования

Исследователи сопоставили внутренние активации DINOv3, самонаблюдаемого визуального трансформера, обученного на миллиардах естественных изображений, с ответами человеческого мозга на те же изображения. Для захвата пространственных и временных аспектов обработки они объединили высокоразрешающую fMRI и быстрые MEG-записи. Цель — проверить, насколько и в каких аспектах модели ИИ воспроизводят человеческую визуальную обработку.

Методы и экспериментальная установка

Команда обучила несколько вариантов DINOv3, изменяя три фактора: размер модели, объем данных для обучения и тип изображений. После этого оценивалась похожесть между активациями модели и сигналами мозга человека. fMRI дала пространственную точность по ранним визуальным и высшим корковым областям, а MEG обеспечила миллисекундную точность возникновения представлений.

Основные результаты по похожести с мозгом

Активации DINOv3 предсказывали fMRI-ответы как в ранних визуальных областях, так и в высших корковых зонах, с пиковыми корреляциями по вокселям около R = 0.45. Анализ MEG показал выравнивание уже через 70 миллисекунд после появления изображения и продолжающееся до трех секунд. Ранние слои трансформера соотносились с первичной зрительной корой V1 и V2, а глубокие слои соответствовали активности в высших областях, включая префронтальную кору.

Траектории обучения и параллели с развитием

Отслеживание совпадений в процессе обучения выявило развитие по этапам. Соответствие низкоуровневых визуальных признаков появлялось очень рано, после небольшой части обучения. Высокоуровневые соответствия требовали миллиардов изображений. Темп появления временных соответствий был самым быстрым, пространственных — медленнее, а кодировочная похожесть оказалась посередине. Эти динамики напоминают развитие человеческого мозга, где сенсорные области созревают раньше ассоциативных кортикальных зон.

Влияние размера модели, объема данных и типа изображений

Более крупные модели стабильно показывали более высокие оценки похожести, особенно в высших корковых областях. Длительное обучение улучшало выравнивание по всем показателям, наиболее заметно для высокоуровневых представлений. Тип изображений также имел ключевое значение: модели, обученные на человека-ориентированных, экологически релевантных изображениях, демонстрировали наибольшую конвергенцию с активностью мозга. Модели, обученные на спутниковых или клеточных снимках, давали частичное совпадение в ранних визуальных областях, но значительно слабее в ассоциативных регионах.

Связь со свойствами коры

Время появления выравниваний коррелировало со структурными и функциональными свойствами коры. Области с большим развитием в онтогенезе, большей толщиной коры или более медленными внутренними временными шкалами выравнивались позже в процессе обучения. Сильно миелинизированные области выравнивались раньше, что согласуется с их ролью в быстрой обработке информации. Эти корреляции указывают на то, что модели ИИ могут давать подсказки о биологических принципах организации коры.

Концептуальные выводы

Результаты подчеркивают взаимодействие встроенных архитектурных предпосылок и опыта. Иерархическая архитектура DINOv3 задает структуру обработки, но полное сходство с мозгом возникает только при длительном обучении на экологически значимых данных. Это перекликается с дискуссиями о натурализме и эмпиризме в когнитивной науке. Выравнивания в префронтальных и мультимодальных областях расширяют вопросы о том, отражают ли такие модели высшие функции, связанные с рассуждением и принятием решений.

Значение для нейронаук и ИИ

DINOv3 и подобные крупные самонаблюдаемые визуальные модели можно рассматривать как вычислительные аналоги этапов развития и организации коры. Манипулируя размером модели, набором данных и длительностью обучения, исследователи могут тестировать гипотезы о взаимодействии архитектуры и опыта, порождающих многослойные представления визуального мира. Исследование показывает, что экологическая релевантность данных и продолжительное обучение необходимы для приближения моделей к полноте человеческой визуальной обработки.

Полные технические сведения доступны по ссылке https://arxiv.org/pdf/2508.18226