Почему ИИ испытывает трудности с аналоговыми часами и что это говорит о понимании машин

Трудности ИИ с чтением аналоговых часов

Недавнее исследование ученых из Китая и Испании показало, что даже продвинутые мультимодальные модели ИИ, такие как GPT-4.1, испытывают серьезные проблемы с определением времени на изображениях аналоговых часов. Небольшие визуальные изменения в часах часто приводят к значительным ошибкам в интерпретации времени. Несмотря на то, что дообучение модели на дополнительных данных улучшает результаты на знакомых дизайнах часов, модель плохо справляется с незнакомыми или искажёнными часами, что вызывает вопросы о надежности таких моделей в реальных визуальных задачах.

Понимание человека против сопоставления шаблонов ИИ

Люди с раннего возраста формируют глубокое концептуальное понимание времени и физических принципов, что позволяет им распознавать аналоговые часы, несмотря на изменения стиля или искажения. Эта способность основана на усвоении фундаментальных абстракций, а не только на запоминании примеров. В отличие от человека, ИИ, по-видимому, сильно зависит от сопоставления шаблонов, извлеченных из больших наборов данных, а не от реального понимания. Например, человеку не нужно тысячи примеров, чтобы научиться читать часы; усвоив концепцию, он может распознавать часы даже в искажённом или абстрактном виде.

Результаты экспериментов с GPT-4.1

Исследователи создали синтетический набор данных, равномерно охватывающий все возможные времена, избегая распространенных предвзятостей интернет-изображений, где часы часто показывают 10:10. До дообучения GPT-4.1 последовательно ошибался при чтении этих часов. Дообучение улучшило результаты на стандартных циферблатах, но не на искажённых формах или часах с изменёнными стрелками (например, тонкие стрелки или с наконечниками-стрелами). Модель демонстрировала два основных типа ошибок: неправильное определение направления стрелок на обычных и искажённых часах и путаницу в ролях стрелок (перепутывание часовой и минутной) на часах с изменёнными стрелками.

Влияние визуальных особенностей на интерпретацию ИИ

Одним из неожиданных выводов стало то, что тонкие стрелки с наконечниками-стрелами приводили к большему снижению точности, чем искажение формы циферблата. Это указывает на трудности модели с восприятием пространственной ориентации и интеграцией нескольких визуальных сигналов одновременно. Дополнительные тесты показали, что путаница в ролях стрелок вызывает наибольшие ошибки. Даже при правильном распознавании ролей точность модели на изменённых часах оставалась ниже, чем на стандартных.

Последствия для развития моделей ИИ

Исследование подчеркивает фундаментальную проблему: сможет ли ИИ достичь понимания предметной области, похожего на человеческое, через абстракцию, или же ему придется полагаться на исчерпывающий набор примеров для каждой вариации. Современные мультимодальные модели могут быть ограничены архитектурными особенностями, опираясь на запоминание шаблонов, а не на концептуальное обучение. Это ставит под вопрос будущие возможности ИИ-систем, способных к истинному рассуждению за пределами поверхностного сопоставления.

Визуальные примеры и информация о наборе данных

В работе представлены изображения, иллюстрирующие предсказания GPT-4.1 до и после дообучения на различных типах часов, демонстрирующие улучшения и сохраняющиеся недостатки. Используемый для дообучения синтетический набор данных доступен публично и создан для сбалансированного покрытия всех времен без типичных предвзятостей.

Полное исследование предоставляет ценные инсайты о разрыве между производительностью ИИ и человеческим пониманием, особенно в визуальных задачах, требующих абстракции и интеграции множества сигналов.