ReasonFlux-PRM: Революция в оценке цепочек рассуждений больших языковых моделей

Значение цепочек рассуждений в больших языковых моделях

Большие языковые модели (LLM) всё чаще используют цепочки рассуждений для решения сложных задач, таких как математика и научные вопросы. Вместо того чтобы сразу выдавать ответ, они создают промежуточные шаги рассуждений, имитирующие логическое мышление, что повышает точность и облегчает выявление ошибок.

Ограничения существующих моделей награды

Большинство традиционных моделей награды процесса (PRM) оценивают только конечный ответ, игнорируя промежуточные цепочки рассуждений. Однако современные модели, например Deepseek-R1, генерируют подробные траектории рассуждений до финального ответа. Текущие PRM не умеют эффективно оценивать такие траектории, что приводит к ненадёжному обучению и снижению качества моделей, обучаемых на таких данных.

Проблемы современных PRM

Существующие PRM оптимизированы для чистых, структурированных ответов, а не для длинных и порой хаотичных цепочек рассуждений, которые генерируют продвинутые LLM. Даже передовые модели, такие как Qwen2.5-Math-PRM-72B, слабо различают качество промежуточных шагов, часто присваивая похожие оценки хорошим и плохим рассуждениям. Это ухудшает отбор данных для дообучения, и модели, обученные на данных отфильтрованных PRM, показывают худшие результаты по сравнению с моделями, обученными на данных, отобранных людьми.

Представляем ReasonFlux-PRM — модель награды с учётом траекторий

Группа исследователей из UIUC, Принстона, Корнелла и ByteDance Seed разработала ReasonFlux-PRM — новую модель награды, оценивающую как промежуточные шаги рассуждений, так и конечные ответы. Она сочетает поэтапное и траекторное оценивание, обеспечивая глубокий анализ качества рассуждений. ReasonFlux-PRM обучена на наборе из 10 000 тщательно подобранных задач по математике и науке, отражающих реальные форматы траекторий и ответов.

Принцип работы ReasonFlux-PRM

ReasonFlux-PRM оценивает каждый шаг рассуждения с учётом его вклада в конечный ответ, используя функцию награды, которая учитывает запрос, предыдущие шаги и итоговый результат. Эти оценки складываются в общую награду за всю траекторию. Модель применяется для офлайн-фильтрации качественных данных для обучения, предоставления плотных наград во время обучения с подкреплением с оптимизацией GRPO, а также для выбора лучших ответов по принципу Best-of-N во время тестирования, что повышает качество вывода.

Превосходство на бенчмарках по рассуждениям

По результатам тестов на AIME, MATH500 и GPQA-Diamond ReasonFlux-PRM-7B превзошла Qwen2.5-Math-PRM-72B и данные, отобранные людьми, с существенным отрывом. Точность при контролируемом дообучении выросла на 12,1%, при обучении с подкреплением — на 4,5%, а при масштабировании на тестах — на 6,3%. Несмотря на меньший размер, ReasonFlux-PRM позволила модели Qwen2.5-14B-Instruct, обученной на её выбранных данных, достичь результатов, близких или превосходящих человеческие, в то время как другие PRM приводили к падению до 26,6%.

Вклад в развитие обучения моделей рассуждений

ReasonFlux-PRM решает важную проблему оценки и обучения моделей рассуждений, обеспечивая контроль качества как промежуточных мыслительных шагов, так и итоговых ответов. Это улучшает качество обучающих данных и надёжность моделей, задавая новое направление в развитии цепочек рассуждений больших языковых моделей.

Для подробностей смотрите статью и репозиторий на GitHub. Следите за проектом в Twitter и присоединяйтесь к активному сообществу машинного обучения на Reddit и в новостной рассылке.