Улучшение логики больших языковых моделей через структурированное мышление без непредсказуемых «ага» моментов

Продвинутое мышление в больших языковых моделях

Большие модели рассуждения (LRM), такие как OpenAI o1 и o3, DeepSeek-R1, Grok 3.5 и Gemini 2.5 Pro, демонстрируют впечатляющие способности к длинным цепочкам рассуждений (CoT). Часто они проявляют сложное поведение — самокоррекцию, возврат назад и проверку, которые называют «ага моментами». Удивительно, что эти способности возникают благодаря обучению с подкреплением (RL) без необходимости в контролируемой донастройке.

Проблемы с непредсказуемым поведением

Несмотря на перспективность, такое поведение часто непредсказуемо и нестабильно, что ограничивает практическое применение и масштабируемость. Модели вроде DeepSeek-R1 и их открытые аналоги (TinyZero, Logic-RL) показывают, что тщательно спроектированные RL-процессы с правилозависимыми наградами, обучением по учебной программе и структурированным тренингом способствуют развитию рефлексивных способностей. Однако полагаться только на спонтанное возникновение таких «ага» моментов нельзя.

Структурированные методы обучения с подкреплением

Чтобы решить эту проблему, исследователи разработали структурированные RL-фреймворки, нацеленные на ключевые типы рассуждений: дедукцию, индукцию и абдукцию. Это включает выравнивание специализированных моделей, их объединение в параметрическом пространстве и применение непрерывного RL для конкретных доменов. Например, Logic-RL использует правилозависимое RL для решения логических задач, что улучшает переносимость на математические задачи.

Другие методы повышают надежность рассуждений, обучая модели рассуждать как вперед, так и назад, или самокритично перерабатывать результаты. Анализ «ага» моментов показывает, что они связаны с внутренними сдвигами неопределенности, латентных представлений и самооценки, что помогает создавать более надежные модели.

Вклад исследователей из ведущих университетов

Команды из Национального университета Сингапура, Университета Цинхуа и Salesforce AI Research решают проблему непредсказуемых «ага» моментов, явно выравнивая модели с тремя ключевыми способностями рассуждения: дедукцией, индукцией и абдукцией. Они предлагают трехэтапный процесс: индивидуальное выравнивание мета-способностей, объединение параметров и доменно-специфичный RL, что значительно улучшает результаты.

Используя программно сгенерированный, самопроверяемый набор задач, их подход повышает точность более чем на 10% по сравнению с инструкционно-тюнингованными моделями, с дополнительным улучшением за счет доменно-специфичного RL. Эта структурированная схема масштабируема и универсальна, улучшая рассуждения в математике, программировании и науках.

Методика: проектирование задач и обучение

Задачи построены вокруг дедукции, индукции и абдукции по формату «зная два, выводим третье» на основе гипотезы (H), правила (R) и наблюдения (O). Дедукция представлена проверкой выполнимости, индукция — предсказанием замаскированной последовательности, абдукция — обратным выводом правил. Задачи синтетические и автоматически проверяемые.

Обучение проходит в три этапа:

(A) Независимое обучение моделей для каждого типа рассуждений с REINFORCE++ и структурированными наградами.
(B) Объединение моделей через взвешенную интерполяцию параметров.
(C) Донастройка объединенной модели на доменно-специфичных данных с помощью RL, выделяя пользу мета-выравнивания.

Оценка и результаты

Модели с выравниванием мета-способностей показывают отличную генерализацию на семи новых бенчмарках по математике, коду и науке. На масштабах 7B и 32B параметров такие модели стабильно превосходят инструкционно-тюнингованные аналоги, причем объединенная модель показывает наибольшие улучшения.

Домен-специфичное RL дообучение с объединенных контрольных точек (Domain-RL-Meta) дает дальнейшее улучшение по сравнению со стандартным RL (Domain-RL-Ins), особенно в математике. Стратегия выравнивания усиливает способности рассуждения и масштабируется с размером модели, значительно повышая верхний предел производительности.

Значение для будущих систем рассуждения

Исследование доказывает, что продвинутые навыки решения задач у больших моделей можно развить без зависимости от непредсказуемых «ага» моментов. Выравнивая модели по дедукции, индукции и абдукции с помощью самопроверяемых задач, создаются специализированные агенты, которые можно эффективно объединять в единую мощную модель. Такая объединенная модель превосходит традиционные аналого по точности на 10% на диагностических задачах и до 2% на реальных бенчмарках.

Использование этого подхода в качестве базы для доменно-специфичного RL повышает результаты еще на 4%. Модульный и системный метод обучения обеспечивает масштабируемую и контролируемую основу для создания надежных и интерпретируемых систем рассуждений.

Подробнее в оригинальной статье и на GitHub. Все заслуги принадлежат авторам исследования.