Оптимизация малообъемных наград с помощью OPRL
Узнайте, как Интернет-Процесс-Обучение-Nаградам трансформирует редкие вознаграждения в задачах обучения с подкреплением.
Общий Обзор
В этом уроке мы изучаем Интернет Процесс Обучения Наградам (OPRL) и демонстрируем, как можно извлекать сигналы награды на уровне шагов из предпочтений траекторий для решения задач обучения с редкими наградами.
Понимание OPRL
OPRL позволяет агентам учить плотные награды через формирование предпочтений. Этот процесс улучшает присвоение кредитов и ускоряет обучение в сложных условиях. При реализации OPRL мы стремимся повысить оптимизацию политики и её производительность.
Настройка Maze Environment
class MazeEnv:
def __init__(self, size=8):
# Инициализация параметров окружения
# ... Дополнительные методы для обработки состояний и движенияСетка представляет движения агентов, препятствия и цели.
Создание Награды и Политической Сетей
Мы строим нейронные сети для процессных наград и решений политики с использованием таких фреймворков, как PyTorch. Последующие конструкции оптимизируют, как состояния представлены и как решения влияют на учебные процесса наград.
Сбор Траекторий и Выбор Действий
Реализация ε-жадной стратегии обеспечивает исследование во время выбора действий. Во время навигации агента по лабиринту мы храним траектории:
class OPRLAgent:
def __init__(self, state_dim, action_dim, lr=3e-4):
# Инициализация модели политики и наградИзучение Предпочтений
Мы генерируем пары предпочтений из траекторий для улучшения модели вознаграждения на основе собранного опыта:
def generate_preference(self):
# Логика генерации предпочтенийОбучение Модели Награды
Обучение модели награды использует стандартную функцию потерь на основе накопленных предпочтений:
def train_reward_model(self, n_updates=5):
# Процедура обучения...Обучение Политики
Наконец, мы комбинируем сформированные награды с стандартной архитектурой обучения с подкреплением для выполнения обучения политики:
def train_policy(self, n_updates=3, gamma=0.98):
# Логика обучения политики...Цикл Обучения
Основной цикл обучения объединяет стратегии исследования, одновременно обновляя предпочтения и политики.
Визуализация Результатов
Ключевым моментом является необходимость нарисовать динамику обучения, такую как доходы, коэффициенты успеха и потери:
# Код визуализации...Заключение
OPRL обеспечивает эффективный онлайн-обратный связь, улучшая способности агента в окружающей среде с редкими наградами. Как показано, он адаптируем для различных настроек RL. Благодаря лучшему пониманию, большим лабиринтам и интеграции человеческой обратной связи, OPRL открывает многообещающие улучшения в обучении с подкреплением.
Switch Language
Read this article in English