PDDL-INSTRUCT от MIT превратил 8B LLM в планировщик с 94% корректных планов — существенный прирост на сложных задачах
Проблема и цель
Большие языковые модели часто генерируют многошаговые планы, которые звучат правдоподобно, но логически некорректны при исполнении. Команда MIT CSAIL, представившая PDDL-INSTRUCT, стремится сделать выходы планирования формально проверяемыми, а не просто убедительными.
Как работает PDDL-INSTRUCT
PDDL-INSTRUCT — это фреймворк инструкционного дообучения, который заставляет модель мыслить в терминах семантики состояний и действий PDDL и сочетает это с внешней валидацией планов через классический валидатор VAL. Основные компоненты метода:
- Обучение на ошибках: модель учат объяснять, почему кандидатный план не проходит — не выполнены предусловия, неверные эффекты, нарушения frame-условий или цель не достигнута.
- Логическая цепочка мыслей: подсказки требуют пошагового вывода по предусловиям и add/delete-эффектам, формируя следы состояния→действие→состояние ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩.
- Внешняя верификация (VAL): каждый шаг проверяется валидатором VAL. Обратная связь может быть бинарной или детализированной (какое именно предусловие/эффект не прошел); детальная обратная связь дает наилучший эффект.
Двухэтапная оптимизация
Процесс настройки включает две стадии: сначала оптимизируют корректность цепочек рассуждений, штрафуя ошибки переходов состояний, затем оптимизируют итоговую точность планирования. Подробная обратная связь от валидатора и более широкий бюджет на проверку улучшают результаты.
Бенчмарки и результаты
Оценка проводится по PlanBench: Blocksworld, Mystery Blocksworld (с обфускацией имен предикатов) и Logistics — стресс-тесты, где обычные LLM показывают слабые результаты.
Основные результаты:
- Blocksworld: до 94% корректных планов у Llama-3-8B после настройки PDDL-INSTRUCT.
- Mystery Blocksworld: драматические относительные улучшения по сравнению с почти нулевыми базовыми показателями (в работе упоминаются многократные приросты, включая примеры порядка 64×).
- Logistics: значительное увеличение доли корректных планов.
- По всем доменам: до 66% абсолютного улучшения по сравнению с некалиброванными базовыми моделями.
Детализированная обратная связь превосходит бинарную, а выделение большего числа итераций верификации помогает дополнительно. Это показывает, что привязка рассуждений к формальной семантике и автоматическая проверка — практичный путь к более надежному планированию на основе LLM.
Ограничения и перспективы
PDDL-INSTRUCT продемонстрирован на классических PDDL-доменах и опирается на VAL как внешний оракул. Подход полезен для агентов, которые могут работать с валидатором в петле, но вопросы длительных горизонтов планирования, временных и числовых ограничений и учета стоимости остаются открытыми. Метод представляет собой важный нейро-символический шаг: модели обучаются генерировать проверяемые следы рассуждений, что сокращает разрыв между правдоподобными и формально корректными планами.
Ресурсы
Полная статья и артефакты доступны в репозиториях авторов; в статье на arXiv приведены подробные экспериментальные данные и метрики.