PDDL-INSTRUCT от MIT превратил 8B LLM в планировщик с 94% корректных планов — существенный прирост на сложных задачах

Проблема и цель

Большие языковые модели часто генерируют многошаговые планы, которые звучат правдоподобно, но логически некорректны при исполнении. Команда MIT CSAIL, представившая PDDL-INSTRUCT, стремится сделать выходы планирования формально проверяемыми, а не просто убедительными.

Как работает PDDL-INSTRUCT

PDDL-INSTRUCT — это фреймворк инструкционного дообучения, который заставляет модель мыслить в терминах семантики состояний и действий PDDL и сочетает это с внешней валидацией планов через классический валидатор VAL. Основные компоненты метода:

Двухэтапная оптимизация

Процесс настройки включает две стадии: сначала оптимизируют корректность цепочек рассуждений, штрафуя ошибки переходов состояний, затем оптимизируют итоговую точность планирования. Подробная обратная связь от валидатора и более широкий бюджет на проверку улучшают результаты.

Бенчмарки и результаты

Оценка проводится по PlanBench: Blocksworld, Mystery Blocksworld (с обфускацией имен предикатов) и Logistics — стресс-тесты, где обычные LLM показывают слабые результаты.

Основные результаты:

Детализированная обратная связь превосходит бинарную, а выделение большего числа итераций верификации помогает дополнительно. Это показывает, что привязка рассуждений к формальной семантике и автоматическая проверка — практичный путь к более надежному планированию на основе LLM.

Ограничения и перспективы

PDDL-INSTRUCT продемонстрирован на классических PDDL-доменах и опирается на VAL как внешний оракул. Подход полезен для агентов, которые могут работать с валидатором в петле, но вопросы длительных горизонтов планирования, временных и числовых ограничений и учета стоимости остаются открытыми. Метод представляет собой важный нейро-символический шаг: модели обучаются генерировать проверяемые следы рассуждений, что сокращает разрыв между правдоподобными и формально корректными планами.

Ресурсы

Полная статья и артефакты доступны в репозиториях авторов; в статье на arXiv приведены подробные экспериментальные данные и метрики.