NVIDIA и CMU представляют Nemotron-CrossThink: новый этап в многоотраслевых рассуждениях для больших языковых моделей
Исследователи из NVIDIA, CMU и Бостонского университета представляют Nemotron-CrossThink — фреймворк, расширяющий обучение с подкреплением для больших языковых моделей за пределы математики, улучшая точность и эффективность в различных областях рассуждений.
Расширение возможностей обучения с подкреплением в больших языковых моделях
Большие языковые модели (LLM) демонстрируют впечатляющие способности к рассуждениям в различных задачах, а обучение с подкреплением (RL) играет ключевую роль в улучшении их глубокого мышления. RL традиционно успешно применяется в областях с четко определёнными правилами, таких как математика и программирование. Однако масштабирование RL на более широкие области рассуждений сталкивается с проблемами из-за ограниченных данных и трудностей с обеспечением обобщения моделей.
Эволюция методов рассуждения
Метод цепочки рассуждений (Chain-of-Thought, CoT) стал прорывом, позволяя LLM решать сложные задачи через многоступенчатое промежуточное мышление, что улучшило результаты в математике, науке и программировании. Несмотря на успехи в математическом рассуждении, применение RL в таких сферах, как право, социальные науки и гуманитарные дисциплины, до сих пор остается малоизученным.
Проблемы многоотраслевого рассуждения
Диверсификация данных для RL ставит вопросы о лучших стратегиях смешивания данных из разных областей. Создание проверяемых моделей вознаграждения в областях без детерминированных решений особенно сложно. Разные сферы требуют уникальных подходов к рассуждению, а различные форматы вопросов (открытые против множественного выбора) требуют адаптивных стратегий. Включение разнообразных доменов может значительно улучшить когнитивные способности LLM.
Представляем Nemotron-CrossThink
Исследователи из NVIDIA, Университета Карнеги-Меллона и Бостонского университета предложили Nemotron-CrossThink — фреймворк, интегрирующий многоотраслевые корпуса данных в RL для повышения обобщаемости моделей. Подход включает разнообразные источники данных: синтетические из CommonCrawl и открытые QA-наборы из STEM, гуманитарных наук, права и социальных наук. Использование шаблонных форматов (MCQ и открытые вопросы), фильтрация для проверяемых наград и стратегическое смешивание данных позволяют эффективно обучать модели самообучением в различных областях.
Ключевые инновации и результаты
Nemotron-CrossThink повышает точность рассуждений и адаптивность ответов. Обученные модели дают краткие ответы на общие вопросы и подробные решения для математических задач, оптимизируя вычислительные ресурсы. Фреймворк решает проблему проверяемых вознаграждений в недетерминированных доменах через шаблонную структуру данных и фильтрацию по сложности, что усиливает эффект RL. Результаты: +30,1% на MATH-500, +27,5% на AMC23, +12,8% на MMLU-PRO и +11,3% на GPQA-DIAMOND.
Комплексная подготовка данных
Обучающая выборка объединяет синтетические данные CommonCrawl с открытыми QA-наборами по общему и математическому рассуждению. Общепредметные данные включают MMLU, Natural Reasoning и синтезированные QA из STEM, экономики, социальных наук и гуманитарных дисциплин. Математические данные представлены MATH, Numina-Math и синтетическими задачами.
Применение шаблонов и фильтрация
Чтобы обеспечить проверяемые вознаграждения в нематематических доменах, Nemotron-CrossThink формирует вопросы и ответы в шаблонах MCQ и открытых вопросов, ограничивая вариативность ответов. Фильтрация исключает образцы с невозможностью оценки, например MCQ без правильного варианта или ответы длиной более десяти слов.
Стратегическое смешивание данных и обучение с подкреплением
Используется Group Relative Policy Optimization (GRPO) для повышения эффективности RL, оценивая базовые показатели по группам без отдельной модели критика. Исследуется влияние разных источников данных и типов вопросов через шесть рецептов смешивания, показывающих, что сочетание общих и математических данных дает более адаптивные LLM.
Технические достижения
- Шаблонные форматы стабилизируют моделирование вознаграждения: единый формат открытых вопросов улучшает результат на 1,21%, краткие ответы превосходят длинные на 1,20%.
- Многоотраслевое смешивание повышает точность на 1,61% и снижает использование токенов на 28% по сравнению с математическим обучением.
- Фильтрация с помощью модели отбирает сложные образцы, добавляя 2,15% точности для Qwen-2.5-32B.
Экспериментальные результаты
Набор NuminaMath показал наивысшую среднюю производительность, отлично справляясь с математическими задачами и хорошо обобщаясь. Синтетические QA-данные улучшили результат примерно на 1,0%, особенно в MMLU-PRO, AGIEVAL и MATH-500. Nemotron-CrossThink превосходит базовые модели, при этом смесь общих данных показала преимущество в 5% над OPEN-REASONER-ZERO с заметными улучшениями в задачах рассуждений.
Открытые форматы вопросов дали лучшие результаты в математике по сравнению с MCQ, что соответствует природе математических задач. Математические данные хорошо переносятся на структурированные задачи, тогда как общие данные сами по себе менее эффективны, что подтверждает важность включения математики в обучающие смеси.
Итог
Nemotron-CrossThink предлагает масштабируемый фреймворк RL, который улучшает обобщаемость LLM за счет смешивания разнообразных данных в соотношении 2:1 (общие к математическим). Инновации в подготовке данных, шаблонах, фильтрации и смешивании обеспечивают значительный рост точности, расширяя возможности рассуждений моделей за пределы математики на весь спектр знаний.
Switch Language
Read this article in English