GURU: Продвинутое обучение с подкреплением для многоцелевого рассуждения в шести областях

Проблемы обучения с подкреплением в области рассуждений

Обучение с подкреплением (RL) показало хорошие результаты в улучшении способностей к рассуждению больших языковых моделей (LLM), особенно в системах, таких как OpenAI-O3 и DeepSeek-R1. Тем не менее, большая часть исследований сосредоточена на узких областях, например, математике и программировании. Такой ограниченный фокус снижает универсальность улучшений и приводит к созданию моделей с ограниченной адаптивностью. Расширение RL на более широкие области рассуждения сложно из-за нехватки надежных сигналов вознаграждения и качественных наборов данных, которые легче определить для математики и кода, но труднее для открытых задач.

Ограничения узкой направленности

RL стал популярным способом повышения навыков рассуждения LLM, особенно после успешных моделей GPT-3 и DeepSeek-R1. Многие открытые проекты ориентированы преимущественно на задачи по математике и коду. Хотя модели хорошо справляются в этих сферах, их навыки часто не переносятся на другие области. Исследования показывают, что RL может не обучать новым навыкам, а лишь улучшать доступ к существующим паттернам рассуждения. Однако новые работы указывают, что длительное обучение RL может раскрыть новые стратегии рассуждения.

Представление набора данных GURU

Группа исследователей из UC San Diego, MBZUAI, Carnegie Mellon и Purdue разработала GURU — обширный набор данных для RL, содержащий 92 000 примеров в шести областях: математика, код, наука, логика, симуляция и табличные данные. Для каждой области созданы специализированные функции вознаграждения и проведена строгая фильтрация. Обучение моделей на GURU показало, что успех RL зависит от знакомства с доменом: привычные области выигрывают от кросс-доменных данных, а незнакомые требуют обучения на своих данных для значительного улучшения. Модели GURU-7B и GURU-32B превосходят предыдущие открытые модели до 7,9% на 17 тестах, что подчеркивает важность многоцелевых наборов данных.

Влияние кросс-доменных и доменных тренировок

Для изучения влияния RL на разные области исследователи обучали модели как на отдельных, так и на смешанных данных GURU. Математика, код и наука получили больше пользы от кросс-доменных тренировок, вероятно, из-за их частоты в данных предобучения. Обучение на смешанных данных показало равные или лучшие результаты по сравнению с обучением на одной области, что говорит о том, что разнообразие задач улучшает общие навыки рассуждения. Обучение только на сложных примерах улучшило результаты в этой области, но снизило точность на простых задачах в других областях. Это подчеркивает важность баланса сложности и разнообразия данных для переносимости навыков.

Архитектура моделей и стратегия оценки

Исследователи обучали модели с 7 и 32 миллиардами параметров, используя фреймворк Verl и алгоритм GRPO на наборе данных GURU. Оценка проводилась на широком спектре задач — математика, код, логика, наука, симуляция и табличные данные — с использованием единых метрик. Модели GURU превзошли специализированные аналоги и хорошо показали себя на новых задачах. Анализ Pass@k показал, что производительность зависит от типа задачи, размера модели и настроек декодирования. Крупные модели получили большую выгоду от RL, а настройка параметров выборки, таких как температура и top-p, улучшила разнообразие и покрытие рассуждений.

Итоги: К многоцелевому рассуждению

GURU — это высококачественный набор данных для RL с 92 000 примеров в шести областях, расширяющий рамки исследований по RL, ранее сосредоточенных на математике и коде. Модели GURU-7B и GURU-32B достигают передовых результатов на 17 тестах, особенно выделяясь в менее представленных областях. Результаты показывают, что RL может как улучшать существующие знания, так и стимулировать новые стратегии рассуждения. Все данные, модели и код доступны публично для поддержки дальнейших исследований в области многоцелевого рассуждения.

Для дополнительной информации ознакомьтесь с статьей, страницей проекта и GitHub репозиторием. Следите за исследователями в Twitter, присоединяйтесь к сообществу ML в SubReddit с 100k+ участников и подписывайтесь на новостную рассылку.