Prefix-RFT: направление LLM с частичными демонстрациями для объединения SFT и RFT

Что такое Prefix-RFT

Prefix-RFT — это стратегия дообучения, которая объединяет supervised fine-tuning (SFT) и reinforcement fine-tuning (RFT) через использование частичных демонстраций, или префиксов. Модель получает случайно выбранный префикс из демонстрации и генерирует остальную часть решения. Такой гибридный подход направляет исследование пространства решений, оставляя при этом пространство для адаптации и творчества модели.

Зачем объединять SFT и RFT

SFT помогает моделям повторять шаблонные, корректные ответы и стабилизирует обучение за счет имитации, но может делать поведение слишком жестким и ухудшать обобщение. RFT оптимизирует модели под награду и поощряет исследование, но может быть нестабильным и зависеть от качественной исходной политики. Использование частичных демонстраций позволяет сохранить структурное руководство SFT и одновременно получить целеустремленную оптимизацию и исследование от RFT.

Ключевые приёмы метода

Prefix-RFT применяет несколько приёмов для стабильности и эффективности обучения. Отсечение по энтропии (entropy-based clipping) концентрирует обновления на токенах префикса с высокой неопределённостью, стимулируя изучение трудных участков. Авторы используют обновление Dr. GRPO, ограничивающее изменение параметров верхними 20% токенов по энтропии. Планировщик с косинусным уменьшением (cosine decay) сокращает длину префикса от 95% до 5% в ходе обучения, постепенно передавая модели больше ответственности за генерацию. Это помогает сохранять промежуточную SFT-потерю и баланс между имитацией и исследованием.

Датасеты, модели и оценка

Метод тестировали на качественных офлайн-наборов данных по математике, в том числе OpenR1-Math-220K (46k отфильтрованных задач), и использовали модели Qwen2.5-Math-7B, Qwen2.5-Math-1.5B и LLaMA-3.1-8B. Бенчмарки включали AIME 2024/25, AMC, MATH500, Minerva и OlympiadBench. По показателям avg@32 и pass@1 Prefix-RFT превзошёл отдельные SFT, RFT и гибридные подходы вроде ReLIFT и LUFFY.

Результаты экспериментов

Prefix-RFT показал стабильные улучшения на разных архитектурах и наборах данных. Даже при использовании всего 1% тренировочных данных (около 450 подсказок) производительность оставалась высокой: avg@32 снизился лишь с 40.8 до 37.6. Стратегия обновления верхних 20% токенов по энтропии дала лучшие результаты и обеспечила более короткие и качественные ответы. Косинусный планировщик длины префикса улучшал стабильность обучения и сходимость по сравнению с равномерной стратегией, особенно на сложных задачах вроде AIME.

Практическая значимость

Используя сэмплированные демонстрационные префиксы для направления исследования, Prefix-RFT предлагает простой и надёжный способ объединить имитационное и наградно-ориентированное обучение. Метод легко интегрируется в существующие пайплайны дообучения и устойчив к качеству и объёму демонстраций. Для задач, требующих структурированного рассуждения, таких как решение математических задач, сочетание частичных демонстраций и RFT даёт более адаптивные и высокоэффективные модели.

Материалы и ресурсы

Полный текст исследования доступен на странице: https://arxiv.org/abs/2507.01679. Авторы также публикуют код, учебные материалы и ноутбуки в репозитории проекта.

Prefix-RFT: направление LLM с частичными демонстрациями для объединения SFT и RFT

Switch Language