Почему критика Apple в адрес AI-рассуждений преждевременна
Критика Apple в адрес рассуждений AI оспаривается Anthropic, которые доказывают, что ошибки оценки, а не ограничения моделей, вызывают проблемы в решении задач.
Противоречивые взгляды на возможности AI в рассуждениях
Недавние дебаты вокруг способностей больших моделей рассуждения (LRM) вызваны двумя противоположными статьями. Apple в "Иллюзии мышления" утверждает, что у LRM есть фундаментальные ограничения в рассуждениях, тогда как Anthropic в ответе "Иллюзия иллюзии мышления" оспаривает эти выводы, связывая наблюдаемые проблемы с ошибками оценки, а не с ограничениями моделей.
Результаты исследований Apple
Apple провела систематические тесты LRM на контролируемых головоломках, таких как Ханойская башня и Переправа через реку. Они зафиксировали "падение точности" при увеличении сложности, когда модели вроде Claude-3.7 Sonnet и DeepSeek-R1 не справлялись с задачами и уменьшали использование токенов, что свидетельствовало о снижении усилий рассуждения. Apple выделила три режима сложности: при низкой сложности стандартные LLM превосходят LRM, при средней — лучше LRM, а при высокой — обе группы терпят неудачу. Заключение: LRM испытывают трудности с точными вычислениями и стабильным алгоритмическим рассуждением.
Критика методологии Apple от Anthropic
Anthropic указывает на ключевые недостатки в эксперименте Apple:
-
Ограничения токенов вместо логических ошибок: Неудачи в Ханойской башне связаны с лимитами вывода токенов, а не с недостатками рассуждения, поскольку модели сознательно обрезали ответы.
-
Неверная классификация сбоев рассуждения: Автоматическая система оценки ошибочно принимала намеренное обрезание вывода за провал в рассуждениях, несправедливо наказывая модели.
-
Неразрешимые задачи неправильно интерпретированы: Некоторые задачи Переправы были математически нерешаемы (например, шесть и более человек с лодкой вместимостью три), что сильно исказило результаты.
Anthropic показали, что при использовании альтернативных форм представления решений, например в виде функций Lua, модели демонстрируют высокую точность даже на сложных задачах.
Переосмысление метрик сложности
Anthropic критикует метрику композиционной глубины (число ходов), которую применяет Apple, отмечая, что она смешивает механическую реализацию с истинной когнитивной сложностью. Например, Ханойская башня требует много ходов, но простых решений, тогда как Переправа сложнее с точки зрения ограничений и поиска.
Выводы для оценки AI
Дебаты выявляют важные пробелы в современных методах оценки AI:
- Необходимо отделять реальные способности рассуждения от практических ограничений, таких как лимиты токенов.
- Проверять решаемость задач для справедливой оценки.
- Совершенствовать метрики, отражающие истинные когнитивные вызовы.
- Использовать разнообразные форматы решений для более точной оценки возможностей рассуждения.
Итог
Утверждение Apple о неспособности LRM к глубоким рассуждениям кажется преждевременным. Контраргументы Anthropic показывают, что при правильной оценке LRM способны решать сложные когнитивные задачи. Это подчеркивает важность тщательных и продуманных методов оценки для понимания преимуществ и ограничений современных AI-моделей.
Подробнее в статьях Apple и Anthropic. Следите за новостями в Twitter и присоединяйтесь к ML SubReddit и нашему Newsletter.
Switch Language
Read this article in English