PDDL-INSTRUCT от MIT превратил 8B LLM в планировщик с 94% корректных планов — существенный прирост на сложных задачах

сентября 22, 2025 · 2 min

Проблема и цель

Большие языковые модели часто генерируют многошаговые планы, которые звучат правдоподобно, но логически некорректны при исполнении. Команда MIT CSAIL, представившая PDDL-INSTRUCT, стремится сделать выходы планирования формально проверяемыми, а не просто убедительными.

Как работает PDDL-INSTRUCT

PDDL-INSTRUCT — это фреймворк инструкционного дообучения, который заставляет модель мыслить в терминах семантики состояний и действий PDDL и сочетает это с внешней валидацией планов через классический валидатор VAL. Основные компоненты метода:

Обучение на ошибках: модель учат объяснять, почему кандидатный план не проходит — не выполнены предусловия, неверные эффекты, нарушения frame-условий или цель не достигнута.
Логическая цепочка мыслей: подсказки требуют пошагового вывода по предусловиям и add/delete-эффектам, формируя следы состояния→действие→состояние ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩.
Внешняя верификация (VAL): каждый шаг проверяется валидатором VAL. Обратная связь может быть бинарной или детализированной (какое именно предусловие/эффект не прошел); детальная обратная связь дает наилучший эффект.

Двухэтапная оптимизация

Процесс настройки включает две стадии: сначала оптимизируют корректность цепочек рассуждений, штрафуя ошибки переходов состояний, затем оптимизируют итоговую точность планирования. Подробная обратная связь от валидатора и более широкий бюджет на проверку улучшают результаты.

Бенчмарки и результаты

Оценка проводится по PlanBench: Blocksworld, Mystery Blocksworld (с обфускацией имен предикатов) и Logistics — стресс-тесты, где обычные LLM показывают слабые результаты.

Основные результаты:

Blocksworld: до 94% корректных планов у Llama-3-8B после настройки PDDL-INSTRUCT.
Mystery Blocksworld: драматические относительные улучшения по сравнению с почти нулевыми базовыми показателями (в работе упоминаются многократные приросты, включая примеры порядка 64×).
Logistics: значительное увеличение доли корректных планов.
По всем доменам: до 66% абсолютного улучшения по сравнению с некалиброванными базовыми моделями.

Детализированная обратная связь превосходит бинарную, а выделение большего числа итераций верификации помогает дополнительно. Это показывает, что привязка рассуждений к формальной семантике и автоматическая проверка — практичный путь к более надежному планированию на основе LLM.

Ограничения и перспективы

PDDL-INSTRUCT продемонстрирован на классических PDDL-доменах и опирается на VAL как внешний оракул. Подход полезен для агентов, которые могут работать с валидатором в петле, но вопросы длительных горизонтов планирования, временных и числовых ограничений и учета стоимости остаются открытыми. Метод представляет собой важный нейро-символический шаг: модели обучаются генерировать проверяемые следы рассуждений, что сокращает разрыв между правдоподобными и формально корректными планами.

Ресурсы

Полная статья и артефакты доступны в репозиториях авторов; в статье на arXiv приведены подробные экспериментальные данные и метрики.