Почему Искусственный Интеллект Рисует Айфоны в Прошлом: Проблемы Исторической Точности
Новое исследование выявило, что модели ИИ ошибочно включают современные устройства в исторические сцены, что подчёркивает сложности с достижением исторической точности в сгенерированных изображениях.
Ошибки Искусственного Интеллекта в Исторических Изображениях
Новое исследование показывает, что генераторы изображений на базе ИИ часто вставляют современные объекты, такие как смартфоны и ноутбуки, в сцены из прошлого, где их быть не должно. Это вызывает вопросы о способности моделей корректно отображать исторические периоды и контексты.
Демографическая Справедливость и Исторический Контекст
Модель Google Gemini подверглась критике за попытки обеспечить демографическую справедливость в неподходящих ситуациях, например, при создании образов немецких солдат Второй мировой войны с маловероятным расовым составом, что демонстрирует конфликт между исправлением предвзятости и исторической точностью.
Проблема Запутанности в Диффузионных Моделях
Диффузионные модели склонны смешивать современные и исторические элементы из-за запутанности, когда часто совместно встречающиеся качества в данных обучения становятся неразделимыми. Например, современные действия, такие как разговор, часто связаны с смартфонами, из-за чего ИИ ошибочно помещает смартфоны в прошлое.
Результаты Исследования Университета Цюриха
Новое исследование анализирует, как латентные диффузионные модели создают исторические сцены. Несмотря на возможность создавать фотореалистичных людей, ИИ связывает исторические периоды с определёнными визуальными стилями (гравюры, монохромные фотографии), часто игнорируя указания в подсказках.
Анахронизмы в Сгенерированных Изображениях
В исследовании протестировали три модели — Stable Diffusion XL, Stable Diffusion 3 и FLUX.1 — используя датасет HistVis из 30 000 изображений, охватывающих десять исторических периодов. Обнаружены частые анахронизмы: современные устройства, такие как смартфоны, пылесосы и ноутбуки, появляются в столетиях до их изобретения.
Обнаружение Анахронизмов с Помощью ИИ
Исследователи использовали GPT-4o для составления и проверки списков анахроничных объектов на изображениях. Эта двухэтапная методика позволила выявлять несоответствия без фиксированного перечня предметов.
Визуальное Доминирование Стиля и Смещённость Моделей
Каждая диффузионная модель демонстрировала сильные предпочтения к визуальным стилям, связанным с историческими периодами, например, гравюры для XVII века или монохромная фотография для начала XX века. Эти стилистические установки глубоко укоренены и сложно изменяются даже с помощью настройки подсказок.
Проблемы Демографического Представления
Также исследование рассмотрело представление расы и пола на сгенерированных изображениях. Некоторые модели переоценивают число мужчин или белых лиц по сравнению с исторической правдой, другие показывают непоследовательные демографические данные, что указывает на смещения, вызванные обучающими данными, а не историческими фактами.
Значение для Искусственного Интеллекта и Культурного Наследия
Выводы показывают, что модели ИИ опираются на поверхностные стилистические признаки, а не на глубокое понимание истории, что ведёт к анахронизмам и упрощённым образам прошлого. Это ограничивает их надёжность в образовательных и культурных приложениях.
Заключение: Необходимость Улучшения Разделения Концепций
Понятия в латентном пространстве ИИ пересекаются на основе частоты и контекста, что затрудняет выделение исторической точности. Для создания достоверных исторических изображений без современных элементов необходимы будущие улучшения в разделении перекрывающихся концепций.
Switch Language
Read this article in English