ReasonFlux-PRM: Революция в оценке цепочек рассуждений больших языковых моделей
'ReasonFlux-PRM — новая траекторно-ориентированная модель награды, которая оценивает промежуточные шаги и финальные ответы в больших языковых моделях, значительно улучшая их способности к рассуждениям и результаты обучения.'
Значение цепочек рассуждений в больших языковых моделях
Большие языковые модели (LLM) всё чаще используют цепочки рассуждений для решения сложных задач, таких как математика и научные вопросы. Вместо того чтобы сразу выдавать ответ, они создают промежуточные шаги рассуждений, имитирующие логическое мышление, что повышает точность и облегчает выявление ошибок.
Ограничения существующих моделей награды
Большинство традиционных моделей награды процесса (PRM) оценивают только конечный ответ, игнорируя промежуточные цепочки рассуждений. Однако современные модели, например Deepseek-R1, генерируют подробные траектории рассуждений до финального ответа. Текущие PRM не умеют эффективно оценивать такие траектории, что приводит к ненадёжному обучению и снижению качества моделей, обучаемых на таких данных.
Проблемы современных PRM
Существующие PRM оптимизированы для чистых, структурированных ответов, а не для длинных и порой хаотичных цепочек рассуждений, которые генерируют продвинутые LLM. Даже передовые модели, такие как Qwen2.5-Math-PRM-72B, слабо различают качество промежуточных шагов, часто присваивая похожие оценки хорошим и плохим рассуждениям. Это ухудшает отбор данных для дообучения, и модели, обученные на данных отфильтрованных PRM, показывают худшие результаты по сравнению с моделями, обученными на данных, отобранных людьми.
Представляем ReasonFlux-PRM — модель награды с учётом траекторий
Группа исследователей из UIUC, Принстона, Корнелла и ByteDance Seed разработала ReasonFlux-PRM — новую модель награды, оценивающую как промежуточные шаги рассуждений, так и конечные ответы. Она сочетает поэтапное и траекторное оценивание, обеспечивая глубокий анализ качества рассуждений. ReasonFlux-PRM обучена на наборе из 10 000 тщательно подобранных задач по математике и науке, отражающих реальные форматы траекторий и ответов.
Принцип работы ReasonFlux-PRM
ReasonFlux-PRM оценивает каждый шаг рассуждения с учётом его вклада в конечный ответ, используя функцию награды, которая учитывает запрос, предыдущие шаги и итоговый результат. Эти оценки складываются в общую награду за всю траекторию. Модель применяется для офлайн-фильтрации качественных данных для обучения, предоставления плотных наград во время обучения с подкреплением с оптимизацией GRPO, а также для выбора лучших ответов по принципу Best-of-N во время тестирования, что повышает качество вывода.
Превосходство на бенчмарках по рассуждениям
По результатам тестов на AIME, MATH500 и GPQA-Diamond ReasonFlux-PRM-7B превзошла Qwen2.5-Math-PRM-72B и данные, отобранные людьми, с существенным отрывом. Точность при контролируемом дообучении выросла на 12,1%, при обучении с подкреплением — на 4,5%, а при масштабировании на тестах — на 6,3%. Несмотря на меньший размер, ReasonFlux-PRM позволила модели Qwen2.5-14B-Instruct, обученной на её выбранных данных, достичь результатов, близких или превосходящих человеческие, в то время как другие PRM приводили к падению до 26,6%.
Вклад в развитие обучения моделей рассуждений
ReasonFlux-PRM решает важную проблему оценки и обучения моделей рассуждений, обеспечивая контроль качества как промежуточных мыслительных шагов, так и итоговых ответов. Это улучшает качество обучающих данных и надёжность моделей, задавая новое направление в развитии цепочек рассуждений больших языковых моделей.
Для подробностей смотрите статью и репозиторий на GitHub. Следите за проектом в Twitter и присоединяйтесь к активному сообществу машинного обучения на Reddit и в новостной рассылке.
Switch Language
Read this article in English