<НА ГЛАВНУЮ

Исследователи UC Berkeley и UCSF представляют Adaptive Parallel Reasoning для эффективного масштабирования вывода LLM без превышения контекстного окна

Исследователи из UC Berkeley и UCSF разработали Adaptive Parallel Reasoning — метод, позволяющий большим языковым моделям динамически распределять вычисления вывода по параллельным потокам, повышая эффективность рассуждений без превышения контекстных ограничений.

Проблемы текущих методов рассуждений LLM

Большие языковые модели (LLM) достигли значительных успехов в области рассуждений, примерами являются системы OpenAI и DeepSeek, которые используют вычисления во время теста и обучение с подкреплением для оптимизации результатов. Однако существующие методы имеют существенные ограничения. Последовательные цепочки рассуждений создают длинные выходные последовательности, что увеличивает задержку и перегружает контекстное окно. Параллельные методы, такие как best-of-N и self-consistency, страдают от плохой координации и отсутствия сквозной оптимизации, что ведёт к неэффективности. Структурированные методы поиска, например tree-of-thought, опираются на фиксированные ручные структуры, ограничивая гибкость.

Существующие решения и их недостатки

Для решения этих проблем применяют масштабирование вывода за счёт увеличения вычислений, что приводит к удлинению последовательностей и росту задержек. Параллелизация через ансамблирование запускает несколько вызовов модели одновременно, но из-за отсутствия координации возникает дублирование вычислений. Фиксированные параллельные структуры и разбиение задач ограничивают масштабируемость или не уменьшают эффективно использование контекста. Другие методы, как Hogwild! Inference, используют параллельные потоки без сквозной оптимизации.

Введение Adaptive Parallel Reasoning (APR)

Учёные из UC Berkeley и UCSF предложили Adaptive Parallel Reasoning (APR) — инновационный подход, который динамически распределяет вычисления вывода между последовательными и параллельными операциями. APR обобщает существующие методы рассуждений, позволяя моделям самостоятельно учиться, когда и как параллелить вычисления, вместо жёстких структур.

APR включает две ключевые инновации:

  • Механизм родительских и дочерних потоков: Родительские потоки создают дочерние через spawn(), чтобы параллельно исследовать разные пути рассуждений. Дочерние потоки возвращают результаты через join(), позволяя родителю продолжать с обновлённой информацией. Это снижает использование токенов, удерживая промежуточные поиски в дочерних потоках.

  • Оптимизация с помощью сквозного обучения с подкреплением: APR дообучается с применением reinforcement learning, чтобы максимизировать успех задачи без заранее заданных структур рассуждений, повышая эффективность и качество вывода.

Система построена на фреймворке SGLang, который поддерживает пакетную обработку дочерних потоков, значительно снижая задержки.

Архитектура и обучение APR

Архитектура включает многопоточный вывод, позволяющий выполнять несколько дочерних потоков с разными контекстами одновременно. Обучение проходит два этапа:

  1. Обучение с учителем: Используются демонстрации, сочетающие стратегии поиска в глубину и в ширину, создавая гибридные паттерны, избегая перегрузки контекстного окна.
  2. Обучение с подкреплением (GRPO): Модель учится решать, когда и насколько активно запускать дочерние потоки, оптимизируя баланс между параллельным исследованием и ограничениями контекста.

Оценка и результаты

APR сравнивали с последовательным chain-of-thought и self-consistency на модели Llama2 с 228 млн параметров и контекстом 4096 токенов. Используя SGLang для эффективного вывода, эксперименты показали:

  • APR превосходит последовательные методы при увеличении вычислений, достигая на 13.5% более высокой точности при 20k токенах и превосходя SoS+ с 57.4% меньшими вычислительными затратами.
  • На лимите 4k токенов 10 потоков APR обеспечивают около 20% прироста точности, распределяя рассуждения параллельно.
  • RL-оптимизация повышает точность APR с 75.5% до 83.4%, при этом модели предпочитают более широкие поиски и больше дочерних потоков.
  • APR использует меньше последовательных токенов, редко превышая 2500, в то время как SoS+ достигает около 3000.
  • Тесты задержек на NVIDIA RTX A6000 показали, что APR достигает 75% точности при 5000 мс на пример, что на 18% лучше, чем SoS+.

Значение для рассуждений LLM

Adaptive Parallel Reasoning обеспечивает динамическую организацию вычислений вывода, улучшая эффективность и масштабируемость без ручного проектирования структур. Это позволяет лучше использовать ограниченное контекстное окно, эффективно масштабироваться с ростом вычислительных ресурсов и достигать лучших соотношений точность-задержка. Эти достижения открывают новые возможности для эффективных и мощных систем рассуждений в сложных задачах.

Подробности доступны в оригинальной статье и на каналах в Twitter, Telegram, LinkedIn и ML SubReddit.

🇬🇧

Switch Language

Read this article in English

Switch to English