AREAL: Революция в обучении больших моделей рассуждений с полностью асинхронным усиленным обучением
AREAL — новая асинхронная система усиленного обучения, которая значительно ускоряет обучение больших моделей рассуждений, разделяя процессы генерации и обучения и достигая до 2.77× быстрейшего обучения без потери точности.
Усиленное обучение для улучшения рассуждений
Усиленное обучение (RL) играет всё более важную роль в улучшении больших языковых моделей (LLM), особенно для задач рассуждений. Большие модели рассуждений (LRM) генерируют промежуточные "шаги мышления" перед финальным ответом, что повышает их эффективность в сложных задачах, таких как математика и программирование. Однако обучение RL для LRM в масштабах требует значительной параллелизации и эффективного дизайна системы.
Ограничения синхронных систем обучения
Современные системы часто используют синхронную пакетную обработку, где генерация должна ждать самого долгого вывода в пакете, что приводит к низкому использованию GPU и неэффективности. Даже новые методы, основанные на пакетах, сталкиваются с узкими местами из-за использования устаревших rollout'ов и неэффективного использования ресурсов.
Представляем AReaL: полностью асинхронная система обучения
Исследователи из IIIS, Университета Цинхуа, Ant Research и HKUST разработали AReaL — полностью асинхронную систему усиленного обучения для ускорения обучения больших моделей рассуждений. AReaL разделяет процессы генерации и обучения: rollout-воркеры непрерывно создают выводы, а обучающие воркеры параллельно обновляют модель по мере поступления новых данных. Такой подход значительно повышает использование GPU и ускоряет обучение.
Технические инновации AReaL
Архитектура AReaL разделяет генерацию и обучение на разные GPU-кластеры, улучшая масштабируемость и эффективность оборудования. Основные компоненты:
- Rollout-воркеры с возможностью прерываемой генерации и обновления моделей
- Сервис оценки вознаграждений
- Обучающие воркеры, выполняющие PPO-обновления
- Контроллер, управляющий потоком данных
Для решения проблем устаревших данных и несогласованных версий политики AReaL использует стратегии обучения с учётом устаревания и раздельный PPO-объектив. Дополнительные системные оптимизации, такие как конвейеризация CPU-GPU, неблокирующие асинхронные запросы и динамическая упаковка последовательностей, повышают скорость обучения и эффективность GPU.
Впечатляющие результаты экспериментов
При тестировании на задачах по математике и программированию с использованием моделей Qwen2 различного размера AReaL показал скорость обучения в 2–3 раза выше по сравнению с методами DeepScaleR и DeepCoder, сохраняя точность. Система эффективно масштабируется по GPU и поддерживает длинные контексты до 32 тысяч токенов. Функции прерываемой генерации и динамического микробатчинга значительно повышают скорость обучения и загрузку оборудования. Раздельный PPO-объектив обеспечивает стабильное обучение даже с устаревшими данными, в отличие от стандартного PPO.
Влияние на масштабное усиленное обучение
AReaL представляет собой значительный шаг вперёд в эффективном обучении больших моделей рассуждений, позволяя ускорить масштабируемое RL без потери качества. Асинхронное выполнение генерации и обучения с учётом устаревания данных снижает простой GPU и увеличивает пропускную способность, что важно для больших RL-приложений в языковом моделировании.
Switch Language
Read this article in English