DSRL: Управление роботами через обучение с подкреплением в латентном пространстве для реальной адаптации

Развитие робототехники с помощью методов обучения

Робототехника постепенно уходит от традиционного программирования к обучению на основе данных. Вместо явных инструкций роботы учатся, подражая действиям, что реализуется через поведенческое клонирование. Такой подход работает в структурированных условиях, но сталкивается с проблемами при применении в динамичных, реальных средах, где необходима адаптация и доработка поведения.

Проблемы поведенческого клонирования и адаптации политик

Политики роботов зачастую обучаются на основе заранее собранных демонстраций человека через контролируемое обучение. Однако эти модели плохо обобщаются на новые задачи и требуют дорогостоящего повторного обучения. Обучение с подкреплением (RL) позволяет улучшать поведение автономно, но страдает от низкой эффективности использования данных и необходимости прямого доступа к сложным моделям, что ограничивает его применение в реальных условиях.

Ограничения интеграции диффузионных моделей и обучения с подкреплением

Современные методы, комбинирующие диффузионные политики с RL, корректируют начальные шаги диффузии или результаты для оптимизации вознаграждения. Несмотря на успехи в симуляциях, они требуют больших вычислительных ресурсов и доступа к параметрам политики, что неудобно для черных ящиков или закрытых моделей. Обратное распространение ошибки через многократные шаги диффузии также вызывает нестабильность.

Представление DSRL: управление диффузией через обучение с подкреплением

Метод DSRL, разработанный исследователями из UC Berkeley, Университета Вашингтона и Amazon, меняет подход — вместо изменения весов модели он оптимизирует латентный шум, подаваемый на диффузионную модель. Вторичная политика, обучаемая RL, выбирает входной шум, направляя действия к желаемым результатам. Это эффективное донастройка без изменения базовой модели и без доступа к её внутренностям.

Разделение действий через латентное шумовое пространство

DSRL отображает исходное пространство действий в пространство латентного шума, где RL-агент выбирает шум, генерирующий действия через диффузионную политику. Такой подход позволяет строить RL-фреймворк вне базовой модели, используя только прямой проход. Это удобно для реальных роботов с доступом только к API черного ящика. Политика выбора шума обучается стандартными методами актер-критик, избегая затратных обратных проходов и поддерживая как онлайн, так и офлайн обучение.

Результаты и практические преимущества

Эксперименты показали значительный рост успеха и эффективности. В одном из реальных заданий DSRL увеличил успешность с 20% до 90% менее чем за 50 эпизодов. Метод также улучшил работу универсальной политики π₀ без изменений базовой модели и доступа к параметрам. Это доказывает применимость DSRL в ограниченных средах, например, при работе через API.

Итог

DSRL предлагает мощный, стабильный и эффективный способ адаптировать диффузионные политики роботов без переобучения и доступа к внутренним параметрам. Управление через латентный шум открывает новые возможности для внедрения адаптивных роботов в реальную жизнь.