Почему Искусственный Интеллект Рисует Айфоны в Прошлом: Проблемы Исторической Точности

Ошибки Искусственного Интеллекта в Исторических Изображениях

Новое исследование показывает, что генераторы изображений на базе ИИ часто вставляют современные объекты, такие как смартфоны и ноутбуки, в сцены из прошлого, где их быть не должно. Это вызывает вопросы о способности моделей корректно отображать исторические периоды и контексты.

Демографическая Справедливость и Исторический Контекст

Модель Google Gemini подверглась критике за попытки обеспечить демографическую справедливость в неподходящих ситуациях, например, при создании образов немецких солдат Второй мировой войны с маловероятным расовым составом, что демонстрирует конфликт между исправлением предвзятости и исторической точностью.

Проблема Запутанности в Диффузионных Моделях

Диффузионные модели склонны смешивать современные и исторические элементы из-за запутанности, когда часто совместно встречающиеся качества в данных обучения становятся неразделимыми. Например, современные действия, такие как разговор, часто связаны с смартфонами, из-за чего ИИ ошибочно помещает смартфоны в прошлое.

Результаты Исследования Университета Цюриха

Новое исследование анализирует, как латентные диффузионные модели создают исторические сцены. Несмотря на возможность создавать фотореалистичных людей, ИИ связывает исторические периоды с определёнными визуальными стилями (гравюры, монохромные фотографии), часто игнорируя указания в подсказках.

Анахронизмы в Сгенерированных Изображениях

В исследовании протестировали три модели — Stable Diffusion XL, Stable Diffusion 3 и FLUX.1 — используя датасет HistVis из 30 000 изображений, охватывающих десять исторических периодов. Обнаружены частые анахронизмы: современные устройства, такие как смартфоны, пылесосы и ноутбуки, появляются в столетиях до их изобретения.

Обнаружение Анахронизмов с Помощью ИИ

Исследователи использовали GPT-4o для составления и проверки списков анахроничных объектов на изображениях. Эта двухэтапная методика позволила выявлять несоответствия без фиксированного перечня предметов.

Визуальное Доминирование Стиля и Смещённость Моделей

Каждая диффузионная модель демонстрировала сильные предпочтения к визуальным стилям, связанным с историческими периодами, например, гравюры для XVII века или монохромная фотография для начала XX века. Эти стилистические установки глубоко укоренены и сложно изменяются даже с помощью настройки подсказок.

Проблемы Демографического Представления

Также исследование рассмотрело представление расы и пола на сгенерированных изображениях. Некоторые модели переоценивают число мужчин или белых лиц по сравнению с исторической правдой, другие показывают непоследовательные демографические данные, что указывает на смещения, вызванные обучающими данными, а не историческими фактами.

Значение для Искусственного Интеллекта и Культурного Наследия

Выводы показывают, что модели ИИ опираются на поверхностные стилистические признаки, а не на глубокое понимание истории, что ведёт к анахронизмам и упрощённым образам прошлого. Это ограничивает их надёжность в образовательных и культурных приложениях.

Заключение: Необходимость Улучшения Разделения Концепций

Понятия в латентном пространстве ИИ пересекаются на основе частоты и контекста, что затрудняет выделение исторической точности. Для создания достоверных исторических изображений без современных элементов необходимы будущие улучшения в разделении перекрывающихся концепций.