THINKPRM: Революция в масштабируемой проверке рассуждений с генеративными процессными моделями вознаграждения

Улучшение рассуждений с помощью процессных моделей вознаграждения (PRM)

Рассуждения в больших языковых моделях (LLM) выигрывают от увеличения вычислительных ресурсов для тестирования, что требует качественных процессных моделей вознаграждения (PRM) для выбора перспективных путей поиска или ранжирования. PRM оценивают пары задача-решение, определяя корректность решения, обычно реализованные как дискриминативные классификаторы. Однако эти модели требуют больших ресурсов, включая человеческую аннотацию, эталонные пошаговые решения или вычислительно затратные прогоны.

Проблемы существующих методов проверки

Подходы, использующие LLM как судью, обладают преимуществами в эффективности данных и интерпретируемости, но показывают слабые результаты в сложных задачах рассуждения, часто не распознавая ошибки. Это создает вызов — объединить преимущества интерпретируемости и эффективности с высокой точностью дискриминативных PRM.

Генеративные PRM: масштабируемая альтернатива

Генеративные PRM рассматривают проверку как задачу генерации языка, выдавая решения о корректности в виде естественных языковых токенов с сопутствующей цепочкой рассуждений (CoT). Такие модели вычисляют вероятность корректности условно, что делает их интерпретируемыми и масштабируемыми. Техники типа Best-of-N и дерево-поиска улучшают качество рассуждений за счет дополнительных вычислений на этапе вывода, но их успех сильно зависит от качества проверяющего.

Представляем THINKPRM: эффективная и мощная проверка

Исследователи из Университета Мичигана, Mila, LG AI Research и Университета Иллинойса в Урбана-Шампейн разработали THINKPRM — длинный CoT-проверяющий, дообученный на значительно меньшем количестве меток по сравнению с дискриминативными PRM. Используя способности моделей с длинной цепочкой рассуждений, THINKPRM превосходит как LLM-as-a-Judge, так и дискриминативных проверяющих, используя всего 1% меток из набора PRM800K по нескольким сложным бенчмаркам.

Высокая эффективность на разных задачах

При равных бюджетах токенов THINKPRM эффективнее масштабирует вычисления для проверки, обгоняя LLM-as-a-Judge на 7.2% на подмножестве ProcessBench. Оценка сравнивала THINKPRM с DiscPRM (дискриминативный PRM, дообученный на всем PRM800K), методами большинства голосов, а также методами с весами проверяющих в экспериментах Best-of-N. Тесты проводились на задачах MATH-500, AIME и вне домена — физических задачах GPQA-Diamond и подмножестве LiveCodeBench v5.

В задаче Best-of-N на MATH-500 THINKPRM достигал лучшей или сопоставимой точности с DiscPRM при всех бюджетах выборки. При поиске с управлением проверяющим THINKPRM-1.5B превзошел DiscPRM примерно на 5 процентных пунктов и обошел LLM-as-a-judge с той же базовой моделью. Он также превзошел сильные PRM, такие как RLHFFlow-Deepseek-PRM, более чем на 7% при 16 лучах. Для вне доменных задач THINKPRM опередил DiscPRM на 8% в GPQA-physics и на 4.5% в LiveCodeBench.

Преимущества генеративных PRM для масштабируемой проверки

THINKPRM демонстрирует, что генеративные PRM, обученные с минимальным надзором на синтетических данных, позволяют эффективно и масштабируемо проверять пошаговые рассуждения. Дообучение на всего 8 тысячах меток улучшает результаты по сравнению с нулевым уровнем LLM-as-a-judge и превосходит дискриминативные PRM, требующие гораздо больше данных. Это подчеркивает важность генеративных языковых моделей для интерпретируемости, масштабируемости и эффективности данных.

Исследование показывает потенциал генеративных PRM для эффективного масштабирования вычислений проверки во время тестирования, что особенно важно для сложных областей, таких как математика и наука.