NVIDIA и CMU представляют Nemotron-CrossThink: новый этап в многоотраслевых рассуждениях для больших языковых моделей

Расширение возможностей обучения с подкреплением в больших языковых моделях

Большие языковые модели (LLM) демонстрируют впечатляющие способности к рассуждениям в различных задачах, а обучение с подкреплением (RL) играет ключевую роль в улучшении их глубокого мышления. RL традиционно успешно применяется в областях с четко определёнными правилами, таких как математика и программирование. Однако масштабирование RL на более широкие области рассуждений сталкивается с проблемами из-за ограниченных данных и трудностей с обеспечением обобщения моделей.

Эволюция методов рассуждения

Метод цепочки рассуждений (Chain-of-Thought, CoT) стал прорывом, позволяя LLM решать сложные задачи через многоступенчатое промежуточное мышление, что улучшило результаты в математике, науке и программировании. Несмотря на успехи в математическом рассуждении, применение RL в таких сферах, как право, социальные науки и гуманитарные дисциплины, до сих пор остается малоизученным.

Проблемы многоотраслевого рассуждения

Диверсификация данных для RL ставит вопросы о лучших стратегиях смешивания данных из разных областей. Создание проверяемых моделей вознаграждения в областях без детерминированных решений особенно сложно. Разные сферы требуют уникальных подходов к рассуждению, а различные форматы вопросов (открытые против множественного выбора) требуют адаптивных стратегий. Включение разнообразных доменов может значительно улучшить когнитивные способности LLM.

Представляем Nemotron-CrossThink

Исследователи из NVIDIA, Университета Карнеги-Меллона и Бостонского университета предложили Nemotron-CrossThink — фреймворк, интегрирующий многоотраслевые корпуса данных в RL для повышения обобщаемости моделей. Подход включает разнообразные источники данных: синтетические из CommonCrawl и открытые QA-наборы из STEM, гуманитарных наук, права и социальных наук. Использование шаблонных форматов (MCQ и открытые вопросы), фильтрация для проверяемых наград и стратегическое смешивание данных позволяют эффективно обучать модели самообучением в различных областях.

Ключевые инновации и результаты

Nemotron-CrossThink повышает точность рассуждений и адаптивность ответов. Обученные модели дают краткие ответы на общие вопросы и подробные решения для математических задач, оптимизируя вычислительные ресурсы. Фреймворк решает проблему проверяемых вознаграждений в недетерминированных доменах через шаблонную структуру данных и фильтрацию по сложности, что усиливает эффект RL. Результаты: +30,1% на MATH-500, +27,5% на AMC23, +12,8% на MMLU-PRO и +11,3% на GPQA-DIAMOND.

Комплексная подготовка данных

Обучающая выборка объединяет синтетические данные CommonCrawl с открытыми QA-наборами по общему и математическому рассуждению. Общепредметные данные включают MMLU, Natural Reasoning и синтезированные QA из STEM, экономики, социальных наук и гуманитарных дисциплин. Математические данные представлены MATH, Numina-Math и синтетическими задачами.

Применение шаблонов и фильтрация

Чтобы обеспечить проверяемые вознаграждения в нематематических доменах, Nemotron-CrossThink формирует вопросы и ответы в шаблонах MCQ и открытых вопросов, ограничивая вариативность ответов. Фильтрация исключает образцы с невозможностью оценки, например MCQ без правильного варианта или ответы длиной более десяти слов.

Стратегическое смешивание данных и обучение с подкреплением

Используется Group Relative Policy Optimization (GRPO) для повышения эффективности RL, оценивая базовые показатели по группам без отдельной модели критика. Исследуется влияние разных источников данных и типов вопросов через шесть рецептов смешивания, показывающих, что сочетание общих и математических данных дает более адаптивные LLM.

Технические достижения

Шаблонные форматы стабилизируют моделирование вознаграждения: единый формат открытых вопросов улучшает результат на 1,21%, краткие ответы превосходят длинные на 1,20%.
Многоотраслевое смешивание повышает точность на 1,61% и снижает использование токенов на 28% по сравнению с математическим обучением.
Фильтрация с помощью модели отбирает сложные образцы, добавляя 2,15% точности для Qwen-2.5-32B.

Экспериментальные результаты

Набор NuminaMath показал наивысшую среднюю производительность, отлично справляясь с математическими задачами и хорошо обобщаясь. Синтетические QA-данные улучшили результат примерно на 1,0%, особенно в MMLU-PRO, AGIEVAL и MATH-500. Nemotron-CrossThink превосходит базовые модели, при этом смесь общих данных показала преимущество в 5% над OPEN-REASONER-ZERO с заметными улучшениями в задачах рассуждений.

Открытые форматы вопросов дали лучшие результаты в математике по сравнению с MCQ, что соответствует природе математических задач. Математические данные хорошо переносятся на структурированные задачи, тогда как общие данные сами по себе менее эффективны, что подтверждает важность включения математики в обучающие смеси.

Итог

Nemotron-CrossThink предлагает масштабируемый фреймворк RL, который улучшает обобщаемость LLM за счет смешивания разнообразных данных в соотношении 2:1 (общие к математическим). Инновации в подготовке данных, шаблонах, фильтрации и смешивании обеспечивают значительный рост точности, расширяя возможности рассуждений моделей за пределы математики на весь спектр знаний.