Почему ИИ переусложняет простые задачи и сдается перед сложными

Поведение LLM и LRM

Искусственный интеллект достиг значительных успехов с появлением больших языковых моделей (LLM), таких как GPT-3 и BERT, а также новых моделей с улучшенными способностями к рассуждению — больших моделей рассуждения (LRM). LLM обучаются на огромных текстовых данных для предсказания следующего слова, прекрасно справляясь с генерацией текста, переводом и суммированием. Однако они изначально не предназначены для логического рассуждения. LRM пытаются устранить этот пробел, используя методы вроде Chain-of-Thought (цепочка рассуждений), когда модель формирует промежуточные шаги рассуждения перед окончательным ответом, что улучшает результаты при решении сложных задач.

Исследование Apple

Исследователи Apple применили нестандартный подход, оценивая модели на контролируемых головоломках вместо традиционных тестов. Они использовали такие задачи, как Башня Ханоя, Прыжки шашек, Переправа через реку и Мир блоков, систематически увеличивая сложность, сохраняя при этом логическую структуру. Это позволило анализировать не только ответы, но и сам процесс рассуждения моделей.

Основные выводы: переусложнение и отказ

Выделены три режима работы моделей в зависимости от сложности задачи:

Низкая сложность: Стандартные LLM работают лучше LRM, так как последние склонны к избыточным рассуждениям, создавая ненужные шаги, в то время как LLM дают более эффективные ответы.
Средняя сложность: LRM показывают лучшие результаты, разлагая задачу на детальные шаги рассуждения, что помогает решать задачи с несколькими логическими этапами.
Высокая сложность: Обе модели терпят неудачу; LRM особенно снижают усилия, фактически «сдаются», несмотря на возросшую сложность.

Простые головоломки LRM решают с излишне длинными рассуждениями, возможно, подражая обучающим примерам. При средней сложности их детальное рассуждение помогает успешно решать задачи, в то время как LLM испытывают трудности с поддержанием логической последовательности. При высокой сложности обе модели не справляются, а LRM даже уменьшают свои попытки решения.

Причины поведения

Переусложнение простых задач связано с обучением на смешанных данных, включающих как краткие, так и подробные объяснения. Модели по умолчанию склонны выдавать громоздкие рассуждения, отдавая предпочтение объяснению, а не эффективности. Неудачи на сложных задачах обусловлены неспособностью моделей к обобщению логических правил — они полагаются на распознавание шаблонов, что приводит к непоследовательности и снижению качества рассуждений. LRM не используют явные алгоритмы и не обладают человеческим пониманием логики.

Мнения сообщества

Результаты вызвали дискуссии в AI-сообществе. Некоторые эксперты считают, что разумность AI не обязана воспроизводить человеческое мышление, и в определенных пределах LLM и LRM демонстрируют эффективное решение задач. Исследование отмечают за тщательный подход, но подчеркивают необходимость дальнейших исследований для улучшения рассуждений AI.

Последствия для развития AI

Исследование выявляет ограничения современных моделей. Требуются методы оценки, ориентированные на качество и гибкость рассуждений, а не только на точность ответов. В будущем важно улучшить способность моделей выполнять логические шаги и регулировать усилия в зависимости от сложности задачи. Создание тестов, отражающих реальные задачи — медицинскую диагностику, юридические споры — даст более глубокое понимание возможностей AI. Преодоление зависимости от шаблонов и развитие обобщения логических правил критично для прогресса в области AI.

Итог

Работа показывает, что LLM и LRM склонны переусложнять простые задачи и испытывают трудности с более сложными. Это выявляет как сильные стороны, так и ограничения моделей. Их неспособность решать самые сложные задачи подчеркивает разрыв между имитацией рассуждений и настоящим пониманием, подчеркивая необходимость создания AI, способного адаптивно рассуждать на разных уровнях сложности, как это делают люди.