Agentic-R1: ИИ, меняющий решение математических задач через объединение языка и инструментов
Agentic-R1, созданный на базе DualDistill, объединяет рассуждения на языке и использование инструментов, превосходя традиционные модели ИИ в решении математических задач по точности и эффективности.
Проблемы моделей математического рассуждения
Современные модели с длинными цепочками рассуждений (long-CoT) достигли впечатляющих результатов в решении математических задач, создавая подробные пути рассуждений с итеративной самопроверкой и уточнением. Однако открытые модели, основанные только на естественном языке, требуют больших вычислительных ресурсов и подвержены ошибкам без механизмов проверки.
Фреймворк DualDistill и модель Agentic-R1
Исследователи из Carnegie Mellon University предложили DualDistill, новый фреймворк дистилляции, который объединяет обучение от двух разных учителей: одного, специализирующегося на рассуждениях на естественном языке, и другого — с использованием инструментов. Эта система создает модель Agentic-R1, которая динамически выбирает между рассуждениями на языке и выполнением кода в зависимости от типа задачи.
Agentic-R1 эффективно решает арифметические и алгоритмические задачи через выполнение кода, а для абстрактных и концептуальных проблем применяет рассуждения на естественном языке. DualDistill объединяет знания обоих учителей с помощью композиции траекторий и самодистилляции для улучшения студенческой модели. В качестве учителей использовались OpenHands (агентский учитель) и DeepSeek-R1 (текстовый учитель).
Оценка производительности
Agentic-R1 прошел тестирование на бенчмарках DeepMath-L и Combinatorics300, сравниваясь с базовыми моделями DeepSeek-R1-Distill и Qwen-2.5-Instruct. Модель показала лучшие результаты по сравнению с системами, ориентированными только на инструменты или только на рассуждения. Agentic-R1 умно сочетает стратегии, достигая высокой точности и эффективности.
Интеллектуальное использование инструментов
Качественный анализ показал, что Agentic-R1 адаптивно использует инструменты: в 79,2% сложных задач Combinatorics300 модель активирует выполнение кода, а для более простых задач AMC — всего в 52,0% случаев. Такое поведение формируется в процессе обучения без явных инструкций, позволяя оптимально балансировать между вычислительной нагрузкой и точностью.
Устойчивость к несовершенным учителям
Даже при точности агентского учителя всего 48,4% на Combinatorics300, Agentic-R1 улучшил свои показатели с 44,7% до 50,9%, превзойдя учителя. Это демонстрирует эффективность DualDistill в обучении на ограниченных данных.
Значение для ИИ
DualDistill и Agentic-R1 показывают перспективный путь создания ИИ, который объединяет разные методы решения задач. Сочетание рассуждений на языке и инструментальных вычислений обеспечивает более надежные, эффективные и адаптивные решения сложных математических задач.
Подробнее читайте в статье и на странице проекта в GitHub.
Switch Language
Read this article in English