<НА ГЛАВНУЮ

OMEGA: Новый бенчмарк для оценки творческих возможностей ИИ в математических рассуждениях

OMEGA — новый бенчмарк для проверки границ математического рассуждения больших языковых моделей, фокусируясь на исследовательском, композиционном и трансформационном обобщении.

Проблемы математического рассуждения в больших языковых моделях

Большие языковые модели, такие как DeepSeek-R1, показывают хорошие результаты на олимпиадных задачах благодаря длинной цепочке рассуждений (CoT). Однако они часто используют заученные методы, повторяя известные правила алгебры или применяя координатную геометрию по умолчанию, что ограничивает их способность решать сложные задачи, требующие оригинального математического творчества. Современные математические датасеты содержат широкий спектр тем и уровней сложности, что затрудняет выделение и анализ конкретных навыков рассуждения, которые могут развить модели с подкреплением.

Ограничения существующих математических бенчмарков

Существующие бенчмарки сосредоточены на обобщении вне распределения и композиционном обобщении, помогая моделям работать с новыми тестовыми данными и комбинировать изученные навыки. Популярные наборы данных включают задачи, написанные людьми (GSM8K, MinervaMath), экзаменационные сборники (AIME, OlympiadBench) и собранные корпуса (NuminaMath, BigMath). Несмотря на разнообразие, эти наборы либо недостаточно сложны, либо не предоставляют детальный анализ способностей к рассуждению.

Представляем OMEGA: контролируемый бенчмарк для оценки навыков рассуждения

Группа исследователей из Калифорнийского университета, Ai2, Вашингтонского университета и dmodel.ai разработала OMEGA — бенчмарк, оценивающий три измерения обобщения вне распределения, вдохновленные типологией творчества по Бодену: исследовательское, композиционное и трансформационное рассуждение. OMEGA использует пары обучающих и тестовых задач с шаблонами, позволяя точно контролировать разнообразие, сложность и используемые стратегии решения. В бенчмарке 40 генераторов задач по шести математическим областям: арифметика, алгебра, комбинаторика, теория чисел, геометрия и логика с головоломками.

Оценка передовых моделей и обучение с подкреплением

В исследовании протестировали четыре современных модели — DeepSeek-R1, Claude-3.7-Sonnet, OpenAI-o3-mini и OpenAI-o4-mini — на разных уровнях сложности. Эксперименты с обучением с подкреплением применяли алгоритм GRPO на 1000 задачах с моделями Qwen2.5-7B-Instruct и Qwen2.5-Math-7B.

  • Исследовательское обобщение включало обучение на задачах низкой сложности и тестирование на более сложных.
  • Композиционное обобщение оценивало способность комбинировать отдельные навыки.
  • Трансформационное обобщение проверяло решение задач с использованием новых, нестандартных подходов.

Основные результаты и поведение моделей

Модели теряли точность с ростом сложности задач, часто тратя много токенов на проверку уже найденных решений. Обучение с подкреплением улучшало обобщение с низкой на среднюю сложность, особенно в известных доменах, усиливая изученные паттерны рассуждений. Например, в области Zebra Logic точность базовой модели была 30%, а после обучения с подкреплением повысилась до 91% на известных задачах и значительно улучшилась на новых, без дополнительного супервайзинга.

Выводы и перспективы

Исследование показывает, что обучение с подкреплением значительно улучшает результаты на задачах с известным распределением и исследовательском обобщении, но его влияние на композиционное обобщение ограничено, а способность к созданию новых схем рассуждений отсутствует. Это указывает на фундаментальное ограничение: RL расширяет возможности решения в рамках известных паттернов, но не стимулирует творческие прорывы, необходимые для трансформационного рассуждения. В будущем стоит исследовать методы поэтапного обучения и контроллеры метарсуждения.

Подробности доступны на Paper, Project Page и GitHub Page. Следите за обновлениями в Twitter, присоединяйтесь к 100k+ ML SubReddit и подписывайтесь на рассылку.

🇬🇧

Switch Language

Read this article in English

Switch to English