DreamGym от Meta: текстовый мир, который снижает количество реальных взаимодействий для RL‑агентов

Почему RL в реальных средах не масштабируется

Реинфорсмент‑обучение для агентов на базе LLM выглядит перспективно теоретически, но на практике наталкивается на четыре взаимосвязанные проблемы: высокая стоимость реальных прогонами, низкое разнообразие задач, нестабильные сигналы вознаграждения и сложная хрупкая инфраструктура. Веб‑среды часто меняются, получение награды зависит от ненадежных парсеров, многие действия необратимы, а механизмы сброса эпизодов сложно реализовать. Всё это делает долгие задачи шумными и выборочно неэффективными: некоторые бенчмарки требуют порядка 80 тысяч реальных переходов для достижения сильных базовых результатов с PPO или GRPO, а другие среды практически непригодны для онлайн RL.

Идея DreamGym: представить опыт как текст

DreamGym переосмысливает узкое место как задачу моделирования. Вместо прямого выполнения RL‑прогонов в сложных веб‑окружениях, DreamGym обучает reasoning‑основанную модель опыта, которая симулирует среду целиком в тексте. Фреймворк определяет синтетический MDP, где состояния, переходы и вознаграждения представлены компактными текстовыми описаниями, а не сырым HTML или состоянием браузера.

Модель опыта на основе рассуждений (Mexp)

Ядро DreamGym — модель опыта Mexp. Она действует в абстрактном текстовом пространстве состояний: состояния — это краткие описания релевантных для задачи частей среды (например очищенные элементы страницы вместо сырых HTML). На каждом шаге агент передаёт текущее состояние, выбранное действие, инструкцию по задаче и историю взаимодействия. Mexp извлекает топ‑k похожих прошлых переходов из буфера воспроизведения и затем использует цепочку рассуждений для генерации reasoning trace, следующего состояния и вознаграждения.

Mexp по сути — модель мира на основе LLM, определённая поверх текста. Её обучают supervised fine‑tuning на офлайн‑траекториях с общей целью, требующей одновременно генерировать reasoning trace и следующее состояние, условированное на этом trace. Такая цель заставляет модель кодировать причинно‑следственную структуру, а не только локальную текстовую статистику.

Буфер воспроизведения как заземляющая память

Буфер воспроизведения DreamGym инициализируется офлайн‑данными, собранными в WebShop, ALFWorld и WebArena Lite. По мере обучения политик внутри синтетической среды новые траектории записываются обратно в буфер. При предсказании Mexp использует энкодер для поиска небольшой выборки похожих переходов из этой памяти и учитывает их при генерации рассуждений и следующих состояний.

Механизм поиска служит заземлением: он удерживает синтетические переходы близкими к эмпирическому распределению данных и уменьшает галлюцинации в длинных прогонах. Исследование показывает, что удаление истории или поиска ухудшает согласованность, информативность и фактичность генерируемых состояний и понижает успехи на WebShop и WebArena Lite.

Курс обучения на основе энтропии вознаграждения

Генератор учебной программы использует ту же основу, что и модель опыта. Он выбирает стартовые задачи, для которых under current policy наблюдается высокая дисперсия вознаграждений — это задачи средней сложности, которые агент иногда решает, а иногда нет. Для каждой такой задачи модель генерирует вариации, которые сохраняют типы действий, но меняют ограничения, цели или контекст.

Эвристика отбора базируется на энтропии вознаграждений, вычисляемой по батчам прогонов для каждой задачи. Предпочтение отдается задачам с ненулевой дисперсией и балансом успехов и неудач. Абляции показывают, что выключение адаптивной учебной программы снижает производительность на WebShop и WebArena Lite примерно на шесть процентных пунктов и ведет к ранним плато, так как буфер заполняется лёгкими, низкоэнтропийными траекториями.

RL внутри DreamGym и теоретические гарантии

Политики в DreamGym используют стандартные алгоритмы RL, такие как PPO и GRPO. Прогоны чередуют выбор действий политикой и синтез следующих состояний и вознаграждений моделью опыта. С точки зрения RL‑кода это просто ещё один интерфейс окружения.

Команда также выводит bound в стиле trust region, который связывает производительность политики в синтетическом MDP с производительностью в реальной среде. В bound входят ошибки предсказания вознаграждения и дивергенция между реальным и синтетическим распределением переходов. По мере уменьшения этих ошибок улучшение в DreamGym означает улучшение в базовой реальной задаче.

Эксперименты

DreamGym оценивали с агентами на Llama и Qwen на WebShop, ALFWorld и WebArena Lite, и результаты разделились на три режима:

В RL‑готовых, но дорогих средах (WebShop, ALFWorld) агенты, обученные внутри DreamGym с PPO или GRPO исключительно на синтетических переходах, достигают результатов, сопоставимых с базовыми моделями, которым понадобилось около 80 тысяч реальных взаимодействий. Это показывает, что синтез опыта на основе рассуждений может дать достаточно сигналов для стабильного улучшения политики.
В средах, которые не готовы для RL (WebArena Lite), DreamGym делает онлайн RL возможным и повышает успех более чем на 30% по сравнению со всеми негибридными базовыми методами, включая supervised fine‑tuning и behavior cloning.
В конфигурации sim‑to‑real (DreamGym‑S2R) политика сначала полностью предобучается в синтетической среде, а затем дообучается на небольшом числе реальных прогонов. Это даёт более 40% дополнительного прироста по сравнению с обучением с нуля в реальной среде, при использовании менее 10% реальных данных и снижении общей стоимости обучения примерно в три–пять раз по сравнению с базовыми методами.

Выводы

DreamGym заменяет хрупкие прогоны в реальной среде моделью опыта, основанной на рассуждениях, которая оперирует в абстрактном текстовом пространстве и предсказывает следующее состояние и вознаграждение из истории, задачи и похожих переходов. Комбинация Mexp, буфера воспроизведения, засеянного реальными траекториями, и учебной программы на основе энтропии вознаграждения стабилизирует и диверсифицирует RL‑обучение и демонстрирует практический путь для масштабирования RL для LLM‑агентов.