Преимущество RL: исследование MIT показало, что обучение с подкреплением снижает катастрофическое забывание по сравнению с SFT

Что такое катастрофическое забывание для foundation-моделей

Foundation-модели обычно обучают один раз и широко деплоят. При дообучении на новых задачах они часто теряют ранее приобретённые способности — это и есть катастрофическое забывание. Это ограничивает возможность создавать долгоживущих агентов, которые постоянно улучшаются.

Измеримый закон забывания

Команда MIT предлагает эмпирическую зависимость между забыванием и распределительным сдвигом:

Forgetting ∝ KL(π0 || π)

Здесь π0 — базовая политика (или базовая модель), а π — дообученная модель. Прямое расхождение Кульбака–Лейблера, измеренное на новой задаче, сильно предсказывает, насколько сильно будут утрачены предыдущие способности. Это даёт возможность количественно оценивать забывание без доступа к данным старых задач.

Почему RL забывает меньше, чем supervised fine-tuning

Эксперименты MIT показывают: онлайн-обучение с подкреплением (RL) лучше сохраняет ранее полученные навыки, чем супервизированное дообучение (SFT). Оба подхода могут достигать схожей точности на новой задаче, но SFT чаще смещает распределение модели дальше от базовой политики и перезаписывает предыдущие навыки. RL же, работая on-policy, генерирует данные из собственной модельной политики и взвешивает их по награде, что естественно ограничивает обновления вблизи базовой модели.

Результаты на больших языковых моделях

В работе использовали Qwen 2.5 3B-Instruct в качестве базы и дообучали модели на разных задачах: математическое рассуждение (Open-Reasoner-Zero), научные вопросы и ответы (SciKnowEval subset) и использование инструментов (ToolAlpaca). Для оценки сохранности навыков применяли бенчмарки HellaSwag, MMLU, TruthfulQA и HumanEval. Выяснилось, что RL повышает точность на новой задаче, удерживая при этом стабильную производительность на старых задачах, тогда как SFT часто улучшает новое за счёт утраты прежних способностей.

Робототехника: сохранение манипуляционных навыков

В экспериментах по управлению роботом с OpenVLA-7B в среде SimplerEnv (pick-and-place) адаптация через RL поддерживала обобщённые навыки манипуляции по разным задачам. SFT могла успешно освоить конкретную новую задачу, но при этом ухудшала более общие способности робота, что снова демонстрирует консерватизм RL в сохранении знаний.

ParityMNIST: изолированный тест механизма

Для проверки механизма в контролируемой обстановке исследователи предложили ParityMNIST. И RL, и SFT достигали высокой точности на новой задаче, но SFT вызывала более резкий спад на вспомогательном наборе FashionMNIST. При построении зависимости уровня забывания от KL-расхождения обе методики легли на единую предсказательную кривую, подтверждая значимость прямого KL.

Почему on-policy обновления важны

On-policy RL собирает примеры из распределения собственных выводов модели и постепенно перераспределяет их по награде. Такие поэтапные, importance-weighted обновления склоняют решения к тем, которые ближе по распределению к базовой политике. Теоретический анализ в работе показывает, что градиенты политики сходятся к оптимальным решениям с минимальным KL, что формализует преимущество RL.

Отвергнутые альтернативные гипотезы

Команда проверила другие объяснения: величину изменений в весах, дрейф внутренних представлений, разреженность обновлений и альтернативные метрики распределий (обратный KL, total variation, L2 и т.д.). Ни одна из них не показала такой предсказательной силы, как прямое KL-расхождение, что укрепляет идею о ключевой роли близости распределений.

Последствия для дизайна алгоритмов и continual learning

Исследование переосмысливает катастрофическое забывание как проблему распределений и даёт практические направления для разработки:

Подробнее с техническими деталями можно ознакомиться в статье MIT (https://arxiv.org/pdf/2509.04259) и на странице проекта с кодом, туториалами и ноутбуками.