Оптимизация малообъемных наград с помощью OPRL

Общий Обзор

В этом уроке мы изучаем Интернет Процесс Обучения Наградам (OPRL) и демонстрируем, как можно извлекать сигналы награды на уровне шагов из предпочтений траекторий для решения задач обучения с редкими наградами.

Понимание OPRL

OPRL позволяет агентам учить плотные награды через формирование предпочтений. Этот процесс улучшает присвоение кредитов и ускоряет обучение в сложных условиях. При реализации OPRL мы стремимся повысить оптимизацию политики и её производительность.

Настройка Maze Environment

class MazeEnv:
    def __init__(self, size=8):
        # Инициализация параметров окружения
 
    # ... Дополнительные методы для обработки состояний и движения

Сетка представляет движения агентов, препятствия и цели.

Создание Награды и Политической Сетей

Мы строим нейронные сети для процессных наград и решений политики с использованием таких фреймворков, как PyTorch. Последующие конструкции оптимизируют, как состояния представлены и как решения влияют на учебные процесса наград.

Сбор Траекторий и Выбор Действий

Реализация ε-жадной стратегии обеспечивает исследование во время выбора действий. Во время навигации агента по лабиринту мы храним траектории:

class OPRLAgent:
    def __init__(self, state_dim, action_dim, lr=3e-4):
        # Инициализация модели политики и наград

Изучение Предпочтений

Мы генерируем пары предпочтений из траекторий для улучшения модели вознаграждения на основе собранного опыта:

def generate_preference(self):
    # Логика генерации предпочтений

Обучение Модели Награды

Обучение модели награды использует стандартную функцию потерь на основе накопленных предпочтений:

def train_reward_model(self, n_updates=5):
    # Процедура обучения...

Обучение Политики

Наконец, мы комбинируем сформированные награды с стандартной архитектурой обучения с подкреплением для выполнения обучения политики:

def train_policy(self, n_updates=3, gamma=0.98):
    # Логика обучения политики...

Цикл Обучения

Основной цикл обучения объединяет стратегии исследования, одновременно обновляя предпочтения и политики.

Визуализация Результатов

Ключевым моментом является необходимость нарисовать динамику обучения, такую как доходы, коэффициенты успеха и потери:

# Код визуализации...

Заключение

OPRL обеспечивает эффективный онлайн-обратный связь, улучшая способности агента в окружающей среде с редкими наградами. Как показано, он адаптируем для различных настроек RL. Благодаря лучшему пониманию, большим лабиринтам и интеграции человеческой обратной связи, OPRL открывает многообещающие улучшения в обучении с подкреплением.