OpenThoughts: Масштабируемый пайплайн для создания данных SFT в моделях рассуждений

Сложности создания данных для моделей рассуждений

Современные модели рассуждений, такие как DeepSeek-R1 и o3, показывают выдающиеся результаты в математике, программировании и науке, используя методы постобучения, такие как supervised fine-tuning (SFT) и reinforcement learning (RL). Однако полные методики создания этих моделей закрыты, что затрудняет исследования в этой области. Несмотря на эффективность SFT в развитии способностей к рассуждению, существующие подходы обычно ограничиваются использованием только вопросов, написанных человеком, или одной учительской модели. Генерация разнообразных пар вопрос-ответ требует значительных ресурсов для инференса учительских моделей и обучения.

Существующие методы и инновации

Модели Gemini, QwQ и DeepSeek-R1 предоставляют трассировки рассуждений, позволяющие использовать distillation знаний для обучения меньших моделей. Проекты OpenR1, OpenMathReasoning и OpenCodeReasoning собирают вопросы с форумов и соревнований, а Natural Reasoning использует предобучающие корпуса в качестве исходных данных. Некоторые усилия, например S1 и LIMO, вручную создают небольшие качественные наборы сложных запросов. DeepMath-103K и Nvidia Nemotron внедряют инновации в этапах поиска, фильтрации и масштабирования данных. Методы RL, такие как AceReason и Skywork-OR1, улучшают рассуждения сверх традиционного SFT.

Представляем OpenThoughts: масштабируемый пайплайн для создания SFT наборов данных

OpenThoughts — это новый передовой открытый пайплайн для создания данных рассуждений, разработанный исследователями из Стэнфорда, Вашингтонского университета, BespokeLabs.ai, Toyota Research Institute, UC Berkeley и других организаций. Проект развивается в три этапа:

OpenThoughts-114K: расширяет Sky-T1 с автоматической верификацией.
OpenThoughts2-1M: увеличивает объем данных за счет разнообразия вопросов и синтетической генерации.
OpenThoughts3-1.2M: использует выводы более 1000 абляционных экспериментов для создания простой, масштабируемой и высокоэффективной системы курирования данных.

Модель OpenThinker3-7B, обученная на этих данных, достигает лучших результатов среди открытых моделей на уровне 7 миллиардов параметров.

Методология и оценка

OpenThoughts3-1.2M создавался путем поочередного изменения компонентов пайплайна при фиксированных остальных условиях, генерируя 31 600 данных на каждую стратегию и дообучая модель Qwen2.5-7B-Instruct на каждом наборе. Оценка проводилась по восьми бенчмаркам из математики (AIME24, AMC23, MATH500), программирования (CodeElo, CodeForces, LiveCodeBench) и науки (GPQA Diamond, JEEBench). Были применены строгие методы удаления схожих образцов, а выделенный тестовый набор обеспечивал проверку обобщения. Для оценки использовался Evalchemy, что гарантирует единообразие протоколов.

Основные результаты

Источник вопросов: В программировании лучшие результаты показывают вопросы CodeGolf (25.3-27.5 баллов), в математике — вопросы от LLM и человека (58.5-58.8), в науке — вопросы с Physics StackExchange и из учебников химии (43.2-45.3).
Смешивание вопросов: Объединение разных источников снижает качество, максимум можно получить около 5% прироста точности при оптимальном смешивании.
Учительская модель: QwQ-32B превосходит DeepSeek-R1 в distillation, повышая точность на 1.9-2.6%.

Перспективы развития

OpenThoughts показывает, что систематические эксперименты значительно улучшают создание данных для SFT моделей рассуждений. Тем не менее остаются нерешённые задачи, включая применение RL, поэтапное дообучение и стратегии обучения по курсу. Будущие исследования сосредоточатся на изучении трансфера между доменами и динамике масштабирования при сближении учеников с учителями.

Подробности доступны в статье, на странице проекта и в репозитории GitHub. Следите за обновлениями в Twitter, вступайте в сообщество ML SubReddit с более чем 99 тысячами участников и подписывайтесь на рассылку.