Meta представляет LlamaRL: масштабируемый фреймворк RL на PyTorch для эффективного обучения больших языковых моделей

Роль обучения с подкреплением в дообучении больших языковых моделей

Обучение с подкреплением (RL) стало ключевым методом для дообучения больших языковых моделей (LLM), позволяя им лучше соответствовать сложным предпочтениям и правилам. Хотя LLM уже способны выполнять разнообразные задачи, такие как суммирование и генерация кода, RL адаптирует их ответы на основе структурированной обратной связи, улучшая интеллектуальное поведение и качество работы моделей.

Проблемы масштабирования обучения с подкреплением для LLM

Применение RL к большим LLM связано с большими инфраструктурными вызовами. Обучение требует огромных вычислительных ресурсов и координации между компонентами, такими как модели политики, оценщики вознаграждения и критики. При размерах моделей в сотни миллиардов параметров возникают проблемы с памятью, задержками передачи данных и простоями GPU. Для масштабируемого обучения крайне важно эффективно использовать GPU и минимизировать задержки между процессами.

Ограничения существующих фреймворков RL

Ранее используемые RL-фреймворки часто страдали от негибкости и неэффективности при масштабировании. Традиционные синхронные методы выполняют генерацию и обучение последовательно, что приводит к простоям GPU из-за несоответствия длительности задач. Гибридные методы памяти, например DeepSpeed-Chat, требуют совместного использования памяти моделями, что вызывает узкие места в производительности. Распределённые решения уменьшают связанность, но часто зависят от сложных систем оркестрации и ограничивают гибкость. Многие фреймворки не оптимизируют использование памяти в зависимости от уровня параллелизма на этапах обучения и инференса.

LlamaRL от Meta: асинхронный распределённый RL-фреймворк на PyTorch

Meta разработала LlamaRL — полностью асинхронный и распределённый фреймворк RL, предназначенный для эффективного обучения больших LLM на кластерах с количеством GPU от нескольких до тысяч. LlamaRL построен целиком на PyTorch и использует архитектуру с одним контроллером для упрощения координации и модульной настройки. Отдельные исполнители параллельно управляют генерацией, обучением и моделью вознаграждения, сокращая время ожидания и позволяя независимо оптимизировать параллелизм модели и использование памяти.

Основные особенности: разгрузка, эффективность памяти и асинхронное выполнение

Архитектура LlamaRL ориентирована на гибкое выполнение и эффективное использование ресурсов. Генерация разгружается на выделенные исполнители, что позволяет тренеру сосредоточиться на обновлениях модели. Технологии Distributed Direct Memory Access (DDMA) и NVIDIA NVLink обеспечивают быструю синхронизацию весов менее чем за две секунды, даже для моделей с 405 миллиардами параметров. Для коррекции офф-полисности, вызванной асинхронным выполнением, применяется метод Asynchronous Importance-weighted Policy Optimization (AIPO). Каждый исполнитель работает независимо, использует тонкий параллелизм и применяет квантизацию для инференс-моделей, что снижает вычислительные и памятьные затраты.

Реальные показатели производительности

Тесты показали значительное ускорение обучения при сохранении качества. Для модели с 8 миллиардами параметров на 256 GPU время шага сократилось с 22,45 до 8,90 секунды. Для модели с 70 миллиардами параметров время уменьшилось с 82,32 до 20,67 секунды. Наиболее впечатляюще, модель с 405 миллиардами параметров на 1024 GPU достигла ускорения в 10,7 раза, сократив время RL-шагов с 635,8 до 59,5 секунды. Эти достижения обусловлены асинхронным выполнением и разделением памяти и вычислений. Оценка на задачах MATH и GSM8K показала сохранение или небольшое улучшение качества.

LlamaRL — масштабируемое решение для обучения LLM с подкреплением

LlamaRL представляет собой важный шаг в решении ключевых проблем с памятью, коммуникациями и использованием GPU при обучении LLM с помощью RL. Асинхронный и модульный подход открывает путь к эффективному и масштабируемому обучению языковых моделей в будущем.

Для подробностей рекомендуем ознакомиться с оригинальной научной статьёй и следить за обновлениями в тематических сообществах.