Проблема, которую решает SRL

Небольшие открытые модели часто проваливаются на самых сложных задачах рассуждения, даже при наличии экспертных трасс. Supervised fine-tuning (SFT) приводит к токен-за-токен имитации длинных демонстраций и деградации на малых трудных датасетах. Рейтинговое обучение с вознаграждением по итогам (outcome-level RL) тоже может не работать, если корректных rollout нет. Supervised Reinforcement Learning (SRL) предлагает иной подход: сохранить RL-оптимизацию, но вводить супервизию прямо в канал награды, используя экспертные траектории.

Как устроен цикл обучения SRL

Каждая экспертная траектория разбивается на последовательность действий. Для каждого префикса последовательности создается обучающий пример: модель сначала генерирует приватный цепочный рассуждательный фрагмент, обёрнутый в ..., затем выдаёт одно действие для этого шага. Сравнивается только это действие с учительским действием с помощью метрики последовательностного сходства на основе difflib. Так получается плотный сигнал награды: каждый шаг получает оценку, даже если в итоге ответ неправильный. Сам рассуждательный фрагмент не ограничивается, и модель может вырабатывать собственную последовательность мыслей, не копируя учителя.

Результаты на математике

Все модели в экспериментах инициализировались из Qwen2.5 7B Instruct и обучались на одном и том же наборе DeepSeek R1 s1K 1.1, поэтому сравнение прозрачное. Ключевые числа:

Базовая Qwen2.5 7B Instruct: AMC23 greedy 50.0, AIME24 greedy 13.3, AIME25 greedy 6.7.
SRL: AMC23 greedy 50.0, AIME24 greedy 16.7, AIME25 greedy 13.3.
SRL затем RLVR: AMC23 greedy 57.5, AIME24 greedy 20.0, AIME25 greedy 10.0.

SRL устраняет деградацию от SFT и повышает результаты на самых сложных задачах; последующий запуск RLVR после SRL даёт лучшие открытые показатели в исследовании.

Результаты в software engineering

Исследователи применили SRL к Qwen2.5 Coder 7B Instruct с 5,000 верифицированными агентными траекториями от claude 3 7 sonnet, что дало 134,000 покомпонентных шагов. Оценка на SWE Bench Verified:

Базовая модель: oracle file edit 5.8%, end-to-end 3.2%.
SWE Gym 7B: 8.4% / 4.2%.
SRL: 14.8% / 8.6%.

SRL примерно в два раза превосходит базовую модель и заметно лучше SFT-базиса на этом сете.

Практические свойства и компромиссы

SRL сохраняет GRPO-подобный объект и использует только действия из экспертных траекторий плюс лёгкое строковое сходство для награды, без отдельной модели вознаграждения. Это упрощает запуск на небольших трудных датасетах, где нельзя собрать большой корпус или тренировать дополнительную reward-модель. Метод применим в разных областях: одинаковая рецептура работает и для математического рассуждения, и для агентного кодирования.

Что это значит для open моделей

SRL является практичным мостом между супервизией процесса и RL: покомпонентные награды из экспертных траекторий дают плотный, информативный сигнал даже в Dhard режиме, где SFT и RLVR иногда застревают. Авторы подчёркивают, что самая сильная конфигурация — SRL, а затем RLVR. Это делает SRL реалистичным путём для команд, работающих с открытыми моделями, чтобы научить их решать действительно тяжёлые задачи.