ByteDance представляет ProtoReasoning: улучшение обобщения LLM с помощью логических прототипов

Важность междоменного рассуждения в больших языковых моделях

Недавние достижения в области больших языковых моделей (LLM), особенно обученных с использованием техники Long Chain-of-Thought (CoT), показали впечатляющую способность обобщать знания в разных областях. Модели, обученные на таких задачах, как математика или программирование, неожиданно хорошо справляются с логическими головоломками или творческим письмом. Это свидетельствует о том, что модели усваивают базовые паттерны рассуждения — абстрактные прототипы рассуждений, которые выходят за пределы конкретных доменов и помогают сосредоточиться на общих когнитивных процессах, а не на специфике задачи.

От Chain-of-Thought к обучению с подкреплением в рассуждениях

Обучение рассуждению у LLM эволюционировало от простых Chain-of-Thought и супервизорного дообучения к методам обучения с подкреплением (RL). Модели вроде DeepSeek-R1 и Seed-Thinking-v1.5 применяют RL с проверяемыми наградами, основанными на точности по эталонным ответам. Это позволяет моделям исследовать сложные пути рассуждений, учиться на ошибках и итеративно улучшать решения. Здесь вводится концепция "прототипов рассуждений" — основных когнитивных паттернов, которые обеспечивают обобщение в разных областях.

Представление ProtoReasoning: структурированное рассуждение с Prolog и PDDL

Исследователи из ByteDance Seed и Шанхайского университета Цзяо Тун разработали ProtoReasoning — фреймворк, расширяющий возможности рассуждения LLM с помощью структурированных прототипов, таких как Prolog (для логики) и PDDL (для планирования). Система автоматически переводит задачи в эти форматы, проверяет решения с помощью интерпретаторов и синтезирует масштабируемые наборы задач без ручной разметки. Обучение на таких прототипах привело к заметному улучшению результатов: логическое рассуждение выросло на 4,7%, планирование на 6,3%, общее рассуждение на 4,0%, математика — на 1,0%. Это подтверждает, что обучение в структурированном пространстве прототипов способствует лучшему обобщению.

Архитектура ProtoReasoning: конструктор прототипов и система проверки

ProtoReasoning включает два ключевых модуля: Конструктор прототипов, переводящий задачи с естественного языка в формальные представления, и Систему проверки, которая оценивает корректность решений. Для Prolog реализован четырёхэтапный пайплайн генерации разнообразных логических задач с проверкой через SWI-Prolog. Для планирования используются задачи на генерацию планов, дополнение и перестановку на PDDL, проверяемые с помощью валидатора VAL. Обучение дополнено дистилляцией от учительской модели, выборкой по сложности и фильтрацией данных для обеспечения высокого качества и устойчивого обобщения.

Результаты оценки: улучшение рассуждений и планирования

Фреймворк тестировался на модели Mixture-of-Experts с 150 млрд параметров (15 млрд активных), обученной на тщательно подобранных выборках Prolog и PDDL. Результаты показали стабильное улучшение в логическом рассуждении, планировании и общих тестах, включая MMLU и AIME 2024. Сравнение обучения на Prolog и на естественном языке (NL) на сопоставимых данных выявило, что оба способа значительно превосходят базовый уровень, а Prolog почти равен NL по эффективности. Это доказывает применимость структурированного обучения к задачам на естественном языке, однако явные методы рассуждений, такие как chain-of-thought, остаются важными. В категориях с малым количеством примеров прирост был слабее из-за недостатка данных.

Основные выводы и перспективы

ProtoReasoning подтверждает гипотезу, что абстрактные прототипы рассуждений позволяют LLM лучше обобщать знания между доменами. Обучение на структурированных форматах Prolog и PDDL улучшает логику, планирование и общее решение задач. Несмотря на обнадеживающие результаты, теоретическая база прототипов рассуждений требует дальнейшей формализации. В будущем планируется математически определить эти концепции и проверить их на открытых моделях и датасетах.

Для подробностей ознакомьтесь с оригинальной статьёй. Все заслуги принадлежат исследователям ByteDance Seed и Шанхайского университета Цзяо Тун. Следите за обновлениями в Twitter, на ML SubReddit и в нашем информационном бюллетене.