<НА ГЛАВНУЮ

Почему критика Apple в адрес AI-рассуждений преждевременна

Критика Apple в адрес рассуждений AI оспаривается Anthropic, которые доказывают, что ошибки оценки, а не ограничения моделей, вызывают проблемы в решении задач.

Противоречивые взгляды на возможности AI в рассуждениях

Недавние дебаты вокруг способностей больших моделей рассуждения (LRM) вызваны двумя противоположными статьями. Apple в "Иллюзии мышления" утверждает, что у LRM есть фундаментальные ограничения в рассуждениях, тогда как Anthropic в ответе "Иллюзия иллюзии мышления" оспаривает эти выводы, связывая наблюдаемые проблемы с ошибками оценки, а не с ограничениями моделей.

Результаты исследований Apple

Apple провела систематические тесты LRM на контролируемых головоломках, таких как Ханойская башня и Переправа через реку. Они зафиксировали "падение точности" при увеличении сложности, когда модели вроде Claude-3.7 Sonnet и DeepSeek-R1 не справлялись с задачами и уменьшали использование токенов, что свидетельствовало о снижении усилий рассуждения. Apple выделила три режима сложности: при низкой сложности стандартные LLM превосходят LRM, при средней — лучше LRM, а при высокой — обе группы терпят неудачу. Заключение: LRM испытывают трудности с точными вычислениями и стабильным алгоритмическим рассуждением.

Критика методологии Apple от Anthropic

Anthropic указывает на ключевые недостатки в эксперименте Apple:

  • Ограничения токенов вместо логических ошибок: Неудачи в Ханойской башне связаны с лимитами вывода токенов, а не с недостатками рассуждения, поскольку модели сознательно обрезали ответы.

  • Неверная классификация сбоев рассуждения: Автоматическая система оценки ошибочно принимала намеренное обрезание вывода за провал в рассуждениях, несправедливо наказывая модели.

  • Неразрешимые задачи неправильно интерпретированы: Некоторые задачи Переправы были математически нерешаемы (например, шесть и более человек с лодкой вместимостью три), что сильно исказило результаты.

Anthropic показали, что при использовании альтернативных форм представления решений, например в виде функций Lua, модели демонстрируют высокую точность даже на сложных задачах.

Переосмысление метрик сложности

Anthropic критикует метрику композиционной глубины (число ходов), которую применяет Apple, отмечая, что она смешивает механическую реализацию с истинной когнитивной сложностью. Например, Ханойская башня требует много ходов, но простых решений, тогда как Переправа сложнее с точки зрения ограничений и поиска.

Выводы для оценки AI

Дебаты выявляют важные пробелы в современных методах оценки AI:

  • Необходимо отделять реальные способности рассуждения от практических ограничений, таких как лимиты токенов.
  • Проверять решаемость задач для справедливой оценки.
  • Совершенствовать метрики, отражающие истинные когнитивные вызовы.
  • Использовать разнообразные форматы решений для более точной оценки возможностей рассуждения.

Итог

Утверждение Apple о неспособности LRM к глубоким рассуждениям кажется преждевременным. Контраргументы Anthropic показывают, что при правильной оценке LRM способны решать сложные когнитивные задачи. Это подчеркивает важность тщательных и продуманных методов оценки для понимания преимуществ и ограничений современных AI-моделей.

Подробнее в статьях Apple и Anthropic. Следите за новостями в Twitter и присоединяйтесь к ML SubReddit и нашему Newsletter.

🇬🇧

Switch Language

Read this article in English

Switch to English