Agentic-R1: ИИ, меняющий решение математических задач через объединение языка и инструментов

Проблемы моделей математического рассуждения

Современные модели с длинными цепочками рассуждений (long-CoT) достигли впечатляющих результатов в решении математических задач, создавая подробные пути рассуждений с итеративной самопроверкой и уточнением. Однако открытые модели, основанные только на естественном языке, требуют больших вычислительных ресурсов и подвержены ошибкам без механизмов проверки.

Фреймворк DualDistill и модель Agentic-R1

Исследователи из Carnegie Mellon University предложили DualDistill, новый фреймворк дистилляции, который объединяет обучение от двух разных учителей: одного, специализирующегося на рассуждениях на естественном языке, и другого — с использованием инструментов. Эта система создает модель Agentic-R1, которая динамически выбирает между рассуждениями на языке и выполнением кода в зависимости от типа задачи.

Agentic-R1 эффективно решает арифметические и алгоритмические задачи через выполнение кода, а для абстрактных и концептуальных проблем применяет рассуждения на естественном языке. DualDistill объединяет знания обоих учителей с помощью композиции траекторий и самодистилляции для улучшения студенческой модели. В качестве учителей использовались OpenHands (агентский учитель) и DeepSeek-R1 (текстовый учитель).

Оценка производительности

Agentic-R1 прошел тестирование на бенчмарках DeepMath-L и Combinatorics300, сравниваясь с базовыми моделями DeepSeek-R1-Distill и Qwen-2.5-Instruct. Модель показала лучшие результаты по сравнению с системами, ориентированными только на инструменты или только на рассуждения. Agentic-R1 умно сочетает стратегии, достигая высокой точности и эффективности.

Интеллектуальное использование инструментов

Качественный анализ показал, что Agentic-R1 адаптивно использует инструменты: в 79,2% сложных задач Combinatorics300 модель активирует выполнение кода, а для более простых задач AMC — всего в 52,0% случаев. Такое поведение формируется в процессе обучения без явных инструкций, позволяя оптимально балансировать между вычислительной нагрузкой и точностью.

Устойчивость к несовершенным учителям

Даже при точности агентского учителя всего 48,4% на Combinatorics300, Agentic-R1 улучшил свои показатели с 44,7% до 50,9%, превзойдя учителя. Это демонстрирует эффективность DualDistill в обучении на ограниченных данных.

Значение для ИИ

DualDistill и Agentic-R1 показывают перспективный путь создания ИИ, который объединяет разные методы решения задач. Сочетание рассуждений на языке и инструментальных вычислений обеспечивает более надежные, эффективные и адаптивные решения сложных математических задач.

Подробнее читайте в статье и на странице проекта в GitHub.