Почему критика Apple в адрес AI-рассуждений преждевременна

Противоречивые взгляды на возможности AI в рассуждениях

Недавние дебаты вокруг способностей больших моделей рассуждения (LRM) вызваны двумя противоположными статьями. Apple в "Иллюзии мышления" утверждает, что у LRM есть фундаментальные ограничения в рассуждениях, тогда как Anthropic в ответе "Иллюзия иллюзии мышления" оспаривает эти выводы, связывая наблюдаемые проблемы с ошибками оценки, а не с ограничениями моделей.

Результаты исследований Apple

Apple провела систематические тесты LRM на контролируемых головоломках, таких как Ханойская башня и Переправа через реку. Они зафиксировали "падение точности" при увеличении сложности, когда модели вроде Claude-3.7 Sonnet и DeepSeek-R1 не справлялись с задачами и уменьшали использование токенов, что свидетельствовало о снижении усилий рассуждения. Apple выделила три режима сложности: при низкой сложности стандартные LLM превосходят LRM, при средней — лучше LRM, а при высокой — обе группы терпят неудачу. Заключение: LRM испытывают трудности с точными вычислениями и стабильным алгоритмическим рассуждением.

Критика методологии Apple от Anthropic

Anthropic указывает на ключевые недостатки в эксперименте Apple:

Ограничения токенов вместо логических ошибок: Неудачи в Ханойской башне связаны с лимитами вывода токенов, а не с недостатками рассуждения, поскольку модели сознательно обрезали ответы.
Неверная классификация сбоев рассуждения: Автоматическая система оценки ошибочно принимала намеренное обрезание вывода за провал в рассуждениях, несправедливо наказывая модели.
Неразрешимые задачи неправильно интерпретированы: Некоторые задачи Переправы были математически нерешаемы (например, шесть и более человек с лодкой вместимостью три), что сильно исказило результаты.

Anthropic показали, что при использовании альтернативных форм представления решений, например в виде функций Lua, модели демонстрируют высокую точность даже на сложных задачах.

Переосмысление метрик сложности

Anthropic критикует метрику композиционной глубины (число ходов), которую применяет Apple, отмечая, что она смешивает механическую реализацию с истинной когнитивной сложностью. Например, Ханойская башня требует много ходов, но простых решений, тогда как Переправа сложнее с точки зрения ограничений и поиска.

Выводы для оценки AI

Дебаты выявляют важные пробелы в современных методах оценки AI:

Необходимо отделять реальные способности рассуждения от практических ограничений, таких как лимиты токенов.
Проверять решаемость задач для справедливой оценки.
Совершенствовать метрики, отражающие истинные когнитивные вызовы.
Использовать разнообразные форматы решений для более точной оценки возможностей рассуждения.

Итог

Утверждение Apple о неспособности LRM к глубоким рассуждениям кажется преждевременным. Контраргументы Anthropic показывают, что при правильной оценке LRM способны решать сложные когнитивные задачи. Это подчеркивает важность тщательных и продуманных методов оценки для понимания преимуществ и ограничений современных AI-моделей.

Подробнее в статьях Apple и Anthropic. Следите за новостями в Twitter и присоединяйтесь к ML SubReddit и нашему Newsletter.