DSRL: Управление роботами через обучение с подкреплением в латентном пространстве для реальной адаптации
DSRL представляет инновационный метод адаптации диффузионных политик роботов с помощью обучения с подкреплением в латентном пространстве, значительно улучшая результаты в реальных условиях без изменения базовой модели.
Развитие робототехники с помощью методов обучения
Робототехника постепенно уходит от традиционного программирования к обучению на основе данных. Вместо явных инструкций роботы учатся, подражая действиям, что реализуется через поведенческое клонирование. Такой подход работает в структурированных условиях, но сталкивается с проблемами при применении в динамичных, реальных средах, где необходима адаптация и доработка поведения.
Проблемы поведенческого клонирования и адаптации политик
Политики роботов зачастую обучаются на основе заранее собранных демонстраций человека через контролируемое обучение. Однако эти модели плохо обобщаются на новые задачи и требуют дорогостоящего повторного обучения. Обучение с подкреплением (RL) позволяет улучшать поведение автономно, но страдает от низкой эффективности использования данных и необходимости прямого доступа к сложным моделям, что ограничивает его применение в реальных условиях.
Ограничения интеграции диффузионных моделей и обучения с подкреплением
Современные методы, комбинирующие диффузионные политики с RL, корректируют начальные шаги диффузии или результаты для оптимизации вознаграждения. Несмотря на успехи в симуляциях, они требуют больших вычислительных ресурсов и доступа к параметрам политики, что неудобно для черных ящиков или закрытых моделей. Обратное распространение ошибки через многократные шаги диффузии также вызывает нестабильность.
Представление DSRL: управление диффузией через обучение с подкреплением
Метод DSRL, разработанный исследователями из UC Berkeley, Университета Вашингтона и Amazon, меняет подход — вместо изменения весов модели он оптимизирует латентный шум, подаваемый на диффузионную модель. Вторичная политика, обучаемая RL, выбирает входной шум, направляя действия к желаемым результатам. Это эффективное донастройка без изменения базовой модели и без доступа к её внутренностям.
Разделение действий через латентное шумовое пространство
DSRL отображает исходное пространство действий в пространство латентного шума, где RL-агент выбирает шум, генерирующий действия через диффузионную политику. Такой подход позволяет строить RL-фреймворк вне базовой модели, используя только прямой проход. Это удобно для реальных роботов с доступом только к API черного ящика. Политика выбора шума обучается стандартными методами актер-критик, избегая затратных обратных проходов и поддерживая как онлайн, так и офлайн обучение.
Результаты и практические преимущества
Эксперименты показали значительный рост успеха и эффективности. В одном из реальных заданий DSRL увеличил успешность с 20% до 90% менее чем за 50 эпизодов. Метод также улучшил работу универсальной политики π₀ без изменений базовой модели и доступа к параметрам. Это доказывает применимость DSRL в ограниченных средах, например, при работе через API.
Итог
DSRL предлагает мощный, стабильный и эффективный способ адаптировать диффузионные политики роботов без переобучения и доступа к внутренним параметрам. Управление через латентный шум открывает новые возможности для внедрения адаптивных роботов в реальную жизнь.
Switch Language
Read this article in English