Преимущество RL: исследование MIT показало, что обучение с подкреплением снижает катастрофическое забывание по сравнению с SFT
Что такое катастрофическое забывание для foundation-моделей
Foundation-модели обычно обучают один раз и широко деплоят. При дообучении на новых задачах они часто теряют ранее приобретённые способности — это и есть катастрофическое забывание. Это ограничивает возможность создавать долгоживущих агентов, которые постоянно улучшаются.
Измеримый закон забывания
Команда MIT предлагает эмпирическую зависимость между забыванием и распределительным сдвигом:
Forgetting ∝ KL(π0 || π)
Здесь π0 — базовая политика (или базовая модель), а π — дообученная модель. Прямое расхождение Кульбака–Лейблера, измеренное на новой задаче, сильно предсказывает, насколько сильно будут утрачены предыдущие способности. Это даёт возможность количественно оценивать забывание без доступа к данным старых задач.
Почему RL забывает меньше, чем supervised fine-tuning
Эксперименты MIT показывают: онлайн-обучение с подкреплением (RL) лучше сохраняет ранее полученные навыки, чем супервизированное дообучение (SFT). Оба подхода могут достигать схожей точности на новой задаче, но SFT чаще смещает распределение модели дальше от базовой политики и перезаписывает предыдущие навыки. RL же, работая on-policy, генерирует данные из собственной модельной политики и взвешивает их по награде, что естественно ограничивает обновления вблизи базовой модели.
Результаты на больших языковых моделях
В работе использовали Qwen 2.5 3B-Instruct в качестве базы и дообучали модели на разных задачах: математическое рассуждение (Open-Reasoner-Zero), научные вопросы и ответы (SciKnowEval subset) и использование инструментов (ToolAlpaca). Для оценки сохранности навыков применяли бенчмарки HellaSwag, MMLU, TruthfulQA и HumanEval. Выяснилось, что RL повышает точность на новой задаче, удерживая при этом стабильную производительность на старых задачах, тогда как SFT часто улучшает новое за счёт утраты прежних способностей.
Робототехника: сохранение манипуляционных навыков
В экспериментах по управлению роботом с OpenVLA-7B в среде SimplerEnv (pick-and-place) адаптация через RL поддерживала обобщённые навыки манипуляции по разным задачам. SFT могла успешно освоить конкретную новую задачу, но при этом ухудшала более общие способности робота, что снова демонстрирует консерватизм RL в сохранении знаний.
ParityMNIST: изолированный тест механизма
Для проверки механизма в контролируемой обстановке исследователи предложили ParityMNIST. И RL, и SFT достигали высокой точности на новой задаче, но SFT вызывала более резкий спад на вспомогательном наборе FashionMNIST. При построении зависимости уровня забывания от KL-расхождения обе методики легли на единую предсказательную кривую, подтверждая значимость прямого KL.
Почему on-policy обновления важны
On-policy RL собирает примеры из распределения собственных выводов модели и постепенно перераспределяет их по награде. Такие поэтапные, importance-weighted обновления склоняют решения к тем, которые ближе по распределению к базовой политике. Теоретический анализ в работе показывает, что градиенты политики сходятся к оптимальным решениям с минимальным KL, что формализует преимущество RL.
Отвергнутые альтернативные гипотезы
Команда проверила другие объяснения: величину изменений в весах, дрейф внутренних представлений, разреженность обновлений и альтернативные метрики распределий (обратный KL, total variation, L2 и т.д.). Ни одна из них не показала такой предсказательной силы, как прямое KL-расхождение, что укрепляет идею о ключевой роли близости распределений.
Последствия для дизайна алгоритмов и continual learning
Исследование переосмысливает катастрофическое забывание как проблему распределений и даёт практические направления для разработки:
- Метрики оценки должны учитывать KL-консерватизм, а не только точность на новой задаче.
- Гибридные методы, сочетающие эффективность SFT с явной минимизацией KL, могут дать лучшие компромиссы.
- Для постоянного обучения и агентов, живущих долго, измерение и ограничение прямого KL даёт точный рычаг, чтобы не стирать предыдущие навыки.
Подробнее с техническими деталями можно ознакомиться в статье MIT (https://arxiv.org/pdf/2509.04259) и на странице проекта с кодом, туториалами и ноутбуками.