R-Zero: самоэволюционирующая система ИИ, генерирующая тренировочные данные из нуля

Большие языковые модели значительно расширили возможности в понимании языка, рассуждении и генерации кода, но дальнейшее улучшение их способности к рассуждению наталкивается на ограничение в виде потребности в больших наборах размеченных людьми данных. R-Zero предлагает альтернативный путь: полностью автономную коэволюционную систему, которая сама создает учебный курс задач и позволяет моделям самоусовершенствоваться без внешних меток.

Проблема ограниченности данных

Большая часть прогресса в рассуждающих LLM опирается на датасеты, подготовленные и размеченные людьми. Это дорого и ограничено человеческими знаниями и приоритетами. Даже методы без явных меток часто нуждаются в существующих коллекциях задач для получения сигналов награды или обучения, что снижает масштабируемость и мешает выходу за пределы человеческой экспертизы.

Как работает R-Zero: Challenger и Solver

R-Zero использует две роли, основанные на одном базовом моделe: Challenger и Solver. Они коэволюционируют в итеративном цикле:

Challenger: обучается с подкреплением генерировать новые и сложные задачи, которые находятся на грани возможностей Solver.
Solver: дообучается на задачах Challenger с использованием псевдометок, определяемых большинственным голосованием среди собственных ответов модели.

Цикл чередует улучшение способности Challenger создавать информативные задачи и обучение Solver на этих задачах, формируя адаптивный и самогенерируемый учебный курс.

Ключевые технические новации

Group Relative Policy Optimization (GRPO): метод обучения с подкреплением, нормализующий награду за ответ относительно группы ответов на тот же запрос, что позволяет эффективно донастраивать политические LLM без отдельной функции ценности.
Куррикулум, основанный на неопределенности: Challenger получает награду за создание задач, которые не слишком просты и не слишком сложны. Функция награды достигает пика при примерно 50% точности Solver, что максимизирует учебный сигнал.
Штраф за повторения и проверка формата: для разнообразия и структурированности в батчах применяется штраф за повторяющиеся вопросы и строгие форматные проверки.
Контроль качества псевдометок: в обучение попадают только пары вопрос-ответ с промежуточной согласованностью ответов, что отсекает неоднозначные или некорректно сформулированные задачи.

Эмпирические результаты

R-Zero оценивали на нескольких бенчмарках. В математических задачах, включая AMC, Minerva, MATH-500, GSM8K, Olympiad-Bench и AIME, три итерации R-Zero дали заметный рост точности во всех размерах и архитектурах моделей. Например, Qwen3-8B-Base улучшился с среднего результата 49.18 до 54.69 после трёх итераций.

Улучшения также распространяются за пределы математики. На общих бенчмарках рассуждений, таких как MMLU-Pro, SuperGPQA и BIG-Bench Extra Hard (BBEH), наблюдаются значимые приросты. Средний показатель Qwen3-8B-Base увеличился с 34.49 до 38.73, что свидетельствует о положительном переносе навыков.

Значение подхода