Soft Thinking меняет правила игры: LLM теперь рассуждают с помощью непрерывных концептуальных эмбеддингов

Ограничения текущего токен-ориентированного рассуждения в LLM

Большие языковые модели обычно генерируют текст по одному дискретному токену за раз, используя заранее определённый словарь. Такой подход ограничивает их способности к рассуждению, особенно в сложных или неоднозначных ситуациях. Стандартные методы Chain-of-Thought (CoT) заставляют модель выбирать единственный путь рассуждения на каждом шаге, тогда как человеческое мышление способно одновременно обрабатывать несколько идей и оперирует абстрактными, невербальными концепциями.

Введение Soft Thinking: рассуждение в непрерывном концептуальном пространстве

Для преодоления этих ограничений исследователи из нескольких университетов и организаций представили Soft Thinking — новый метод без дополнительного обучения, позволяющий LLM рассуждать в непрерывном концептуальном пространстве вместо дискретных токенов. Вместо выбора одного токена за шаг Soft Thinking генерирует «концептуальные токены» — вероятностно-взвешенные смеси всех эмбеддингов токенов. Это даёт возможность модели одновременно исследовать несколько траекторий рассуждения и создавать более богатые, абстрактные представления.

Механизмы работы Soft Thinking

Soft Thinking заменяет дискретную выборку токенов на концептуальные токены, которые представляют собой распределения вероятностей по всему словарю. Эти распределения вычисляют взвешенные эмбеддинги, сохраняя неопределённость и позволяя параллельно исследовать разные пути рассуждения. Метод включает механизм Cold Stop, который отслеживает энтропию и останавливает рассуждения, когда модель достигает достаточной уверенности, повышая эффективность и предотвращая коллапс.

Результаты и оценка эффективности

Оценка Soft Thinking на восьми бенчмарках по математике и программированию показала до 2,48% прироста точности (Pass@1) и сокращение на 22,4% количества сгенерированных токенов по сравнению со стандартными методами Chain-of-Thought. Метод работает на трёх открытых LLM разных размеров и архитектур без изменения весов модели и дополнительного обучения.

Преимущества и перспективы

Soft Thinking представляет собой более выразительную и вычислительно эффективную альтернативу дискретным CoT-методам, приближая полную маргинализацию по всем путям рассуждения. Метод сочетает повышенную точность с меньшими вычислительными затратами, сохраняя интерпретируемость и лаконичность рассуждений. В будущем планируется исследовать адаптации обучения для повышения устойчивости, особенно на данных вне распределения. Код Soft Thinking доступен в открытом доступе для дальнейших исследований.

Soft Thinking меняет правила игры: LLM теперь рассуждают с помощью непрерывных концептуальных эмбеддингов

Ограничения текущего токен-ориентированного рассуждения в LLM

Введение Soft Thinking: рассуждение в непрерывном концептуальном пространстве

Механизмы работы Soft Thinking

Результаты и оценка эффективности

Преимущества и перспективы

Switch Language