Новая AI-модель FG2 от EPFL снижает ошибки локализации на 28% для автономных автомобилей в условиях отсутствия GPS

Проблемы с локализацией в городских условиях

Высотные здания в таких городах, как Сан-Франциско и Нью-Йорк, часто мешают работе GPS из-за блокировки и отражения сигналов. Для автономных автомобилей и роботов доставки даже небольшие ошибки локализации могут привести к сбоям в выполнении заданий. Исследователи из Швейцарской Высшей технической школы Лозанны (EPFL) разработали инновационную AI-модель FG2, представленную на CVPR 2025, которая значительно повышает точность визуальной локализации.

Модель FG2: точная кросс-вью локализация

FG2 позволяет автономным системам точно определять своё положение и ориентацию, используя только изображения с уличной камеры и соответствующие аэрофотоснимки или спутниковые изображения. Модель демонстрирует снижение средней ошибки локализации на 28% по сравнению с предыдущими лучшими методами на сложных публичных датасетах.

Принцип работы FG2

Вместо абстрактных описателей сцены, FG2 имитирует человеческую интуицию, сопоставляя детальные, семантически согласованные объекты — такие как бордюры, пешеходные переходы и фасады зданий — между уличными и аэрофотоснимками. Это повышает интерпретируемость, позволяя визуализировать, какие именно объекты сопоставляются, что является существенным шагом вперед по сравнению с традиционными «чёрными ящиками» AI.

Модель использует слабое обучение с учителем, требуя только конечную позу камеры в качестве сигнала без прямых меток соответствий.

Преодоление различий в ракурсах

Ключевая сложность — сильное различие между видом с земли и видом с воздуха. Ранее методы создавали либо абстрактные описатели, либо преобразовывали изображение в вид сверху, но часто игнорировали вертикальные структуры.

FG2 реализует следующий подход:

Преобразование признаков с уличного изображения в 3D облако точек вокруг камеры.
Интеллектуальный выбор наиболее значимых признаков по вертикали, определяя, что важнее — дорожная разметка или крыша здания.
Сопоставление этих 2D представлений между наземным и аэрофотографическим изображениями.
Расчёт точной трёхмерной позиции (x, y, и угол поворота) с помощью алгоритма Прокруста.

Производительность и прозрачность

На датасете VIGOR FG2 снизила среднюю ошибку локализации на 28% и показала хорошую обобщаемость на KITTI. Важным преимуществом является возможность визуализации сопоставленных точек, подтверждающая, что модель самостоятельно учится находить семантически значимые соответствия.

Прорыв в автономной навигации

Человеко-подобное сопоставление признаков и повышенная интерпретируемость FG2 — значительный шаг вперёд в визуальной локализации. Эти достижения способствуют созданию более надёжных и безопасных систем навигации для автономных автомобилей, дронов и роботов в условиях отсутствия GPS.