#foundation-модели08.09.2025
Преимущество RL: исследование MIT показало, что обучение с подкреплением снижает катастрофическое забывание по сравнению с SFT
'MIT доказали, что on-policy обучение с подкреплением сохраняет ранее приобретённые способности лучше, чем супервизированное дообучение, за счёт минимизации прямого KL-расхождения между базовой и адаптированной моделью.'