AREAL: Революция в обучении больших моделей рассуждений с полностью асинхронным усиленным обучением

Усиленное обучение для улучшения рассуждений

Усиленное обучение (RL) играет всё более важную роль в улучшении больших языковых моделей (LLM), особенно для задач рассуждений. Большие модели рассуждений (LRM) генерируют промежуточные "шаги мышления" перед финальным ответом, что повышает их эффективность в сложных задачах, таких как математика и программирование. Однако обучение RL для LRM в масштабах требует значительной параллелизации и эффективного дизайна системы.

Ограничения синхронных систем обучения

Современные системы часто используют синхронную пакетную обработку, где генерация должна ждать самого долгого вывода в пакете, что приводит к низкому использованию GPU и неэффективности. Даже новые методы, основанные на пакетах, сталкиваются с узкими местами из-за использования устаревших rollout'ов и неэффективного использования ресурсов.

Представляем AReaL: полностью асинхронная система обучения

Исследователи из IIIS, Университета Цинхуа, Ant Research и HKUST разработали AReaL — полностью асинхронную систему усиленного обучения для ускорения обучения больших моделей рассуждений. AReaL разделяет процессы генерации и обучения: rollout-воркеры непрерывно создают выводы, а обучающие воркеры параллельно обновляют модель по мере поступления новых данных. Такой подход значительно повышает использование GPU и ускоряет обучение.

Технические инновации AReaL

Архитектура AReaL разделяет генерацию и обучение на разные GPU-кластеры, улучшая масштабируемость и эффективность оборудования. Основные компоненты:

Rollout-воркеры с возможностью прерываемой генерации и обновления моделей
Сервис оценки вознаграждений
Обучающие воркеры, выполняющие PPO-обновления
Контроллер, управляющий потоком данных

Для решения проблем устаревших данных и несогласованных версий политики AReaL использует стратегии обучения с учётом устаревания и раздельный PPO-объектив. Дополнительные системные оптимизации, такие как конвейеризация CPU-GPU, неблокирующие асинхронные запросы и динамическая упаковка последовательностей, повышают скорость обучения и эффективность GPU.

Впечатляющие результаты экспериментов

При тестировании на задачах по математике и программированию с использованием моделей Qwen2 различного размера AReaL показал скорость обучения в 2–3 раза выше по сравнению с методами DeepScaleR и DeepCoder, сохраняя точность. Система эффективно масштабируется по GPU и поддерживает длинные контексты до 32 тысяч токенов. Функции прерываемой генерации и динамического микробатчинга значительно повышают скорость обучения и загрузку оборудования. Раздельный PPO-объектив обеспечивает стабильное обучение даже с устаревшими данными, в отличие от стандартного PPO.

Влияние на масштабное усиленное обучение

AReaL представляет собой значительный шаг вперёд в эффективном обучении больших моделей рассуждений, позволяя ускорить масштабируемое RL без потери качества. Асинхронное выполнение генерации и обучения с учётом устаревания данных снижает простой GPU и увеличивает пропускную способность, что важно для больших RL-приложений в языковом моделировании.

Подробнее: Статья и GitHub.