Бенчмарк PHYX выявляет пробелы в физическом рассуждении мультимодальных моделей ИИ

Достижения и ограничения мультимодальных фундаментальных моделей

Современные мультимодальные фундаментальные модели достигают точности, сопоставимой с человеческой, на сложных математических и предметных тестах, таких как AIME, GPQA, MATH-500 и OlympiadBench. Однако эти оценки не учитывают важный аспект машинного интеллекта — физическое рассуждение. Оно требует интеграции дисциплинарных знаний, символических операций и ограничений реального мира, что кардинально отличается от чисто математического решения задач.

Сложности физического рассуждения

Физическое решение задач требует от моделей понимания скрытых условий, например, что «гладкая поверхность» означает отсутствие трения, и поддержания физической согласованности на всех этапах рассуждения, поскольку физические законы неизменны независимо от пути рассуждений. Это вызывает сомнения в способности современных мультимодальных больших языковых моделей (MLLM) к продвинутому рассуждению в визуальных и физических задачах, близких к реальности.

Существующие бенчмарки и их ограничения

Бенчмарки вроде PhysReason и EMMA включают мультимодальные задачи по физике, но охватывают лишь малые ее области, что недостаточно для оценки продвинутых способностей MLLM в физическом рассуждении. Чтобы заполнить этот пробел, исследователи из ведущих университетов представили PHYX — комплексный бенчмарк для оценки физического рассуждения в фундаментальных моделях.

Представляем PHYX: новый бенчмарк для физического рассуждения

PHYX содержит 3000 визуально основанных вопросов по физике из шести ключевых областей: механика, электромагнетизм, термодинамика, волны/акустика, оптика и современная физика. Он акцентирует внимание на мультимодальном решении задач с тремя основными инновациями:

Большой набор новых вопросов с реалистичными физическими сценариями, требующими интегрированного визуального и причинного анализа.
Экспертная проверка и дизайн данных, охватывающий фундаментальные области физики.
Строгий унифицированный трехэтапный протокол оценки.

Сбор данных и контроль качества

Сбор данных проходил в четыре этапа, начиная с тщательного обзора ключевых областей физики для обеспечения разнообразия. В качестве экспертов-аннотаторов привлекались аспиранты STEM-направлений. Для обеспечения оригинальности и качества выбирались вопросы без легко доступных ответов. Применялась трехэтапная очистка данных, включая обнаружение дубликатов с помощью лексического анализа и ручную проверку аспирантами-физиками. Также были отфильтрованы 10% самых коротких вопросов по длине, в итоге осталось 3000 высококачественных вопросов из первоначальных 3300.

Результаты бенчмарка и выводы

PHYX представляет серьезные вызовы: даже худшие эксперты-человеки достигли точности 75,6%, превзойдя все протестированные модели. Бенчмарк демонстрирует разрыв в производительности между людьми и ИИ, особенно на открытых вопросах, требующих настоящего рассуждения, в отличие от задач с вариантами ответов, где слабые модели могли опираться на поверхностные признаки. Точность GPT-4o на PHYX ниже, чем на MathVista и MATH-V, что подчеркивает сложность физического рассуждения, требующего глубокой интеграции абстрактных понятий и знаний о реальном мире.

Основные выводы и перспективы

PHYX показывает, что современные мультимодальные модели в основном опираются на запомненные знания, математические формулы и поверхностные визуальные паттерны, а не на глубокое понимание физических принципов. Бенчмарк ограничен английскими запросами и схематичными изображениями, которые не полностью отражают сложность восприятия в реальном мире и многоязычные способности. Тем не менее, PHYX устанавливает новый стандарт для оценки физического рассуждения в ИИ, стимулируя дальнейшие исследования для преодоления этих пробелов.

Подробнее смотрите на странице проекта, с кодом и статьей.

Подписывайтесь на исследователей в Twitter и присоединяйтесь к сообществу на ML SubReddit для обновлений.