Исследователи UC Berkeley и UCSF представляют Adaptive Parallel Reasoning для эффективного масштабирования вывода LLM без превышения контекстного окна
Исследователи из UC Berkeley и UCSF разработали Adaptive Parallel Reasoning — метод, позволяющий большим языковым моделям динамически распределять вычисления вывода по параллельным потокам, повышая эффективность рассуждений без превышения контекстных ограничений.
Проблемы текущих методов рассуждений LLM
Большие языковые модели (LLM) достигли значительных успехов в области рассуждений, примерами являются системы OpenAI и DeepSeek, которые используют вычисления во время теста и обучение с подкреплением для оптимизации результатов. Однако существующие методы имеют существенные ограничения. Последовательные цепочки рассуждений создают длинные выходные последовательности, что увеличивает задержку и перегружает контекстное окно. Параллельные методы, такие как best-of-N и self-consistency, страдают от плохой координации и отсутствия сквозной оптимизации, что ведёт к неэффективности. Структурированные методы поиска, например tree-of-thought, опираются на фиксированные ручные структуры, ограничивая гибкость.
Существующие решения и их недостатки
Для решения этих проблем применяют масштабирование вывода за счёт увеличения вычислений, что приводит к удлинению последовательностей и росту задержек. Параллелизация через ансамблирование запускает несколько вызовов модели одновременно, но из-за отсутствия координации возникает дублирование вычислений. Фиксированные параллельные структуры и разбиение задач ограничивают масштабируемость или не уменьшают эффективно использование контекста. Другие методы, как Hogwild! Inference, используют параллельные потоки без сквозной оптимизации.
Введение Adaptive Parallel Reasoning (APR)
Учёные из UC Berkeley и UCSF предложили Adaptive Parallel Reasoning (APR) — инновационный подход, который динамически распределяет вычисления вывода между последовательными и параллельными операциями. APR обобщает существующие методы рассуждений, позволяя моделям самостоятельно учиться, когда и как параллелить вычисления, вместо жёстких структур.
APR включает две ключевые инновации:
-
Механизм родительских и дочерних потоков: Родительские потоки создают дочерние через
spawn(), чтобы параллельно исследовать разные пути рассуждений. Дочерние потоки возвращают результаты черезjoin(), позволяя родителю продолжать с обновлённой информацией. Это снижает использование токенов, удерживая промежуточные поиски в дочерних потоках. -
Оптимизация с помощью сквозного обучения с подкреплением: APR дообучается с применением reinforcement learning, чтобы максимизировать успех задачи без заранее заданных структур рассуждений, повышая эффективность и качество вывода.
Система построена на фреймворке SGLang, который поддерживает пакетную обработку дочерних потоков, значительно снижая задержки.
Архитектура и обучение APR
Архитектура включает многопоточный вывод, позволяющий выполнять несколько дочерних потоков с разными контекстами одновременно. Обучение проходит два этапа:
- Обучение с учителем: Используются демонстрации, сочетающие стратегии поиска в глубину и в ширину, создавая гибридные паттерны, избегая перегрузки контекстного окна.
- Обучение с подкреплением (GRPO): Модель учится решать, когда и насколько активно запускать дочерние потоки, оптимизируя баланс между параллельным исследованием и ограничениями контекста.
Оценка и результаты
APR сравнивали с последовательным chain-of-thought и self-consistency на модели Llama2 с 228 млн параметров и контекстом 4096 токенов. Используя SGLang для эффективного вывода, эксперименты показали:
- APR превосходит последовательные методы при увеличении вычислений, достигая на 13.5% более высокой точности при 20k токенах и превосходя SoS+ с 57.4% меньшими вычислительными затратами.
- На лимите 4k токенов 10 потоков APR обеспечивают около 20% прироста точности, распределяя рассуждения параллельно.
- RL-оптимизация повышает точность APR с 75.5% до 83.4%, при этом модели предпочитают более широкие поиски и больше дочерних потоков.
- APR использует меньше последовательных токенов, редко превышая 2500, в то время как SoS+ достигает около 3000.
- Тесты задержек на NVIDIA RTX A6000 показали, что APR достигает 75% точности при 5000 мс на пример, что на 18% лучше, чем SoS+.
Значение для рассуждений LLM
Adaptive Parallel Reasoning обеспечивает динамическую организацию вычислений вывода, улучшая эффективность и масштабируемость без ручного проектирования структур. Это позволяет лучше использовать ограниченное контекстное окно, эффективно масштабироваться с ростом вычислительных ресурсов и достигать лучших соотношений точность-задержка. Эти достижения открывают новые возможности для эффективных и мощных систем рассуждений в сложных задачах.
Подробности доступны в оригинальной статье и на каналах в Twitter, Telegram, LinkedIn и ML SubReddit.
Switch Language
Read this article in English