PoE-World: Модульные символические модели превосходят RL-базисы в Montezuma’s Revenge с минимальными данными

Роль символического рассуждения в моделировании мира

Создание ИИ, способного адаптироваться к сложным ситуациям, требует глубокого понимания работы окружающего мира. Традиционные нейросетевые модели, такие как Dreamer, гибки, но требуют огромных объемов данных, гораздо больше, чем необходимо человеку. В то время как синтез программ с помощью больших языковых моделей (LLM) предлагает более эффективные по данным модели мира, создавая программные представления. Однако их масштабирование на сложные динамические среды затруднено из-за сложности генерации крупных программ.

Ограничения существующих программных моделей мира

Современные методы часто создают одну большую программу для представления мира, как в WorldCoder и CodeWorldModels. Такой подход ограничивает масштабируемость и способность работать с неопределенностью и частичной наблюдаемостью в сложных средах. Некоторые исследования сочетают символическое рассуждение с визуальными данными в робототехнике, используя ограниченные языки предметной области или структуры типа факторных графов. Теоретические модели, например AIXI, также исследуют моделирование мира через машины Тьюринга и историю наблюдений.

Представление PoE-World: модульный и вероятностный подход

PoE-World, разработанный исследователями из Корнелла, Кембриджа, Института Алана Тьюринга и Далхаузи, предлагает иной подход — объединение множества маленьких программ, синтезированных LLM, каждая из которых описывает конкретное правило среды. Такая модульная вероятностная структура позволяет учиться на минимальных демонстрациях и обобщать на новые ситуации. PoE-World работает с символическими объектными наблюдениями, а не с сырыми пикселями, акцентируя внимание на точном моделировании для эффективного планирования в сложных играх, таких как Pong и Montezuma’s Revenge.

Архитектура и обучение PoE-World

Среда моделируется как смесь программных экспертов — небольших интерпретируемых Python-программ, каждая отвечает за определенное правило или поведение. Эксперты взвешиваются и комбинируются для предсказания будущих состояний на основе истории и действий, при условной независимости признаков. Жесткие ограничения уточняют предсказания, эксперты обновляются или удаляются по мере поступления новых данных. Система поддерживает планирование и обучение с подкреплением через симуляцию вероятных будущих состояний. Программы синтезируются с помощью LLM и интерпретируются вероятностно, веса оптимизируются градиентным спуском.

Результаты на Atari

PoE-World + Planner протестирован на Pong и Montezuma’s Revenge, включая усложнённые версии, с минимальными демонстрационными данными. Он превосходит RL-базисы, такие как PPO, ReAct и WorldCoder, особенно в условиях дефицита данных. Модель хорошо обобщается, точно описывая динамику игр даже в измененных условиях без новых демонстраций. PoE-World — единственный метод, стабильно набирающий положительные очки в Montezuma’s Revenge. Предварительное обучение политик в симулированной среде PoE-World значительно ускоряет обучение в реальных условиях. По сравнению с ограниченными и порой неточными моделями WorldCoder, PoE-World создаёт более детализированные, учитывающие ограничения представления, что улучшает планирование и реалистичность поведения в игре.

Символические модульные программы для масштабируемого планирования ИИ

PoE-World демонстрирует потенциал модульных символических моделей мира, синтезируемых LLM, для создания адаптивных ИИ-агентов. Комбинируя программных экспертов, модель достигает сильного обобщения с минимальными данными, эффективного планирования и надежной работы в сложных задачах. Код и демонстрации доступны для изучения.

Для дополнительной информации смотрите статью, страницу проекта и репозиторий на GitHub.