SynPref-40M и Skywork-Reward-V2: Революция в масштабируемом согласовании человека и ИИ для передовых моделей вознаграждения

Ограничения современных моделей вознаграждения

Модели вознаграждения играют ключевую роль в обучении с подкреплением на основе обратной связи от человека (RLHF), однако многие из лучших открытых моделей не способны полноценно отражать сложные человеческие предпочтения. Несмотря на продвинутые методы обучения, прогресс ограничен из-за недостатков в наборах данных предпочтений, которые зачастую узки, искусственно сгенерированы или плохо проверены. Правила хорошо работают для конкретных задач, например, математики или программирования, но не способны уловить тонкие человеческие суждения. Кроме того, такие бенчмарки как RewardBench теряют надежность как показатель реальной эффективности моделей вознаграждения, демонстрируя слабую корреляцию с успехом в практических задачах.

Проблемы создания данных предпочтений и новые подходы

Традиционно создание данных предпочтений базируется на людях-аннотаторах, что дорого, медленно и непоследовательно. Современные методы, например RLAIF, используют крупные языковые модели (LLM) для автоматизации аннотирования, иногда превосходя по качеству людей. Гибридные подходы объединяют данные, сгенерированные LLM, с проверкой человеком для повышения качества. Модели вознаграждения эволюционировали от простых моделей оценки, таких как Bradley-Terry, до сложных генеративных и оптимизационных методов. Несмотря на множество моделей и наборов данных, точное отражение тонких человеческих предпочтений в различных задачах и на разных языках остается сложной задачей.

SynPref-40M: Масштабный набор данных предпочтений человека и ИИ

Исследователи из 2050 Research и Skywork AI представляют SynPref-40M — набор из 40 миллионов пар предпочтений, созданных с помощью двухэтапного пайплайна человек-ИИ. Люди-аннотаторы обеспечивают высокое качество через строгую проверку, а LLM масштабируют сбор данных под человеческим контролем. На основе этого набора была создана серия моделей Skywork-Reward-V2 — восемь моделей с параметрами от 0.6B до 8B, обученных на высококачественном подмножестве из 26 миллионов пар. Эти модели демонстрируют передовые результаты по семи основным бенчмаркам, превосходя по согласованию, безопасности, объективности и устойчивости к ошибкам. Ключ к успеху — тщательная, итеративная кураторская работа, сочетающая человеческий опыт и масштабируемость ИИ, а не просто объем данных.

Двухэтапный пайплайн кураторства человек-ИИ

Современные открытые модели часто переобучаются на узких бенчмарках, таких как RewardBench, что ограничивает их полезность в реальных условиях. Для решения этой проблемы разработан двухэтапный пайплайн. Первый этап начинается с аннотаций, проверенных людьми, которые помогают LLM маркировать разнообразные атрибуты предпочтений, затем проводится итеративный анализ ошибок и доработка модели. Второй этап масштабирует процесс за счет проверки согласованности между лучшей моделью и обученной человеком "золотой" моделью, фильтруя надежные данные без дополнительного участия человека. Такой подход сбалансировал качество и масштабируемость, позволив создать десятки миллионов высококачественных пар предпочтений.

Тестирование Skywork-Reward-V2: Компактные модели с выдающейся производительностью

Серия Skywork-Reward-V2 показывает превосходные результаты на различных бенчмарках, обгоняя более крупные модели (до 70B параметров) и новые генеративные модели вознаграждения. Модели основаны на Qwen3 (0.6B–8B) и Llama 3.1/3.2 (1B–8B) и достигают высоких результатов на RewardBench, PPE, RM-Bench и JudgeBench. Лучший вариант, Llama-3.1-8B-40M, достигает среднего результата 88.6, превосходя всех конкурентов. Несмотря на меньший размер, эти модели выигрывают благодаря высококачественным данным SynPref-40M и эффективному обучению, что обеспечивает лучшую обобщаемость в реальных сценариях RLHF. Особенно примечательно, что модели среднего размера, например Qwen3-1.7B, превосходят некоторые 70B модели, подчеркивая важность качества данных и методологии обучения над количеством параметров.

Перспективы: Масштабирование с точностью

SynPref-40M и Skywork-Reward-V2 демонстрируют, как объединение человеческого суждения с масштабируемостью ИИ позволяет создавать большие, качественные наборы данных предпочтений и мощные модели вознаграждения. Эти модели показывают отличную обобщаемость, соответствие человеческим ценностям, безопасность и устойчивость к предвзятости. В будущем планируется исследовать новые стратегии обучения, поскольку модели вознаграждения становятся центральными в развитии и согласовании LLM.

Подробнее можно узнать в статье, а также на страницах моделей в Hugging Face и GitHub. Следите за исследователями в Twitter, YouTube и Spotify, присоединяйтесь к их сабреддиту и подписывайтесь на новостную рассылку.