Исследование Apple выявляет критические ошибки в AI-моделях рассуждения через тесты на головоломках

Эволюция моделей искусственного интеллекта для рассуждения

Искусственный интеллект эволюционировал от простых языковых моделей к продвинутым Большим Моделям Рассуждения (Large Reasoning Models, LRM), которые имитируют человеческое мышление, создавая промежуточные шаги перед выводами. Такой подход уделяет внимание не только правильности ответов, но и процессу рассуждения. Однако возникает вопрос, действительно ли эти модели умеют рассуждать или просто повторяют шаблоны из обучающих данных.

Ограничения традиционных методов оценки

Традиционные бенчмарки оценивают только конечный ответ, игнорируя процесс рассуждения. Это может вводить в заблуждение, так как модели могут просто запоминать обучающую информацию, а не обобщать навыки рассуждения. Для решения этой проблемы нужны контролируемые среды, где можно менять сложность задач и анализировать промежуточные шаги.

Оценка на основе головоломок

Исследователи Apple разработали методику оценки с четырьмя головоломками — Башня Ханоя, Переправа через реку, Прыжки в шашках и Мир блоков. Эти задачи позволяют точно регулировать сложность, меняя количество дисков, шашек или агентов. Каждая головоломка требует разных навыков, например, последовательного планирования и удовлетворения ограничений. Важно, что данные задачи не содержат обучающего загрязнения, что позволяет оценивать не только результаты, но и сам процесс рассуждения.

Сравнительное исследование моделей рассуждения

В исследовании сравнивали две модели — Claude 3.7 Sonnet и DeepSeek-R1, а также их версии с функциями рассуждения и стандартные большие языковые модели. Тесты при одинаковом бюджете токенов измеряли точность и эффективность рассуждений на разных уровнях сложности. Были выявлены три зоны производительности: модели без рассуждений лучше справлялись с простыми задачами, модели с рассуждениями превосходили на среднем уровне, но все модели проваливались при высокой сложности.

Анализ поведения моделей при рассуждении

Выяснилось, что усилия по рассуждению растут с увеличением сложности до определенного предела, после чего падают, несмотря на доступные ресурсы. Например, Claude 3.7 Sonnet сохранял высокую точность до порога сложности, затем производительность резко падала. Даже при предоставлении явных алгоритмов решения модели не могли выполнить задачи выше определенного уровня сложности. Интересно, что некоторые более простые задачи были сложнее, что выявило серьезные недостатки в символической манипуляции.

Модели также демонстрировали «перерассуждение»: сначала генерировали правильные промежуточные решения, но затем шли по неверным путям, тратя токены впустую. На среднем уровне сложности правильные ответы появлялись позже в цепочке рассуждений, а при высокой сложности модели полностью не справлялись. Количественный анализ подтвердил, что точность решений стремилась к нулю при возрастании сложности, а количество используемых токенов для рассуждения неожиданно снижалось.

Выводы и перспективы

Данное исследование выявляет существенные ограничения масштабируемости современных LRM. Несмотря на прогресс, общее рассуждение пока недостижимо. Работа демонстрирует, что опираться только на точность конечного ответа недостаточно. Контролируемые головоломки оказались мощным инструментом для выявления скрытых слабостей моделей и подчеркивают необходимость создания более надежных архитектур для развития способностей AI к рассуждению.