Microsoft представила ARTIST: RL-фреймворк для LLM с агентным рассуждением и динамическим использованием инструментов

Прогресс в рассуждениях LLM с помощью обучения с подкреплением

Большие языковые модели (LLM) достигли значительных успехов в сложных рассуждениях благодаря инновациям в архитектуре, масштабах и методах обучения, таким как обучение с подкреплением (RL). RL направляет модели через сигналы вознаграждения, что позволяет создавать более длинные и последовательные мыслительные процессы, адаптирующиеся к сложности задачи. Однако большинство LLM с RL сильно зависят от статичных внутренних знаний и текстового рассуждения, что ограничивает их эффективность для задач, требующих актуальной информации, специфических знаний или точных вычислений. Это становится особенно очевидным в задачах с интенсивным знанием или открытым контекстом, где отсутствие доступа к внешним инструментам ведет к ошибкам и галлюцинациям.

Необходимость агентного рассуждения и интеграции инструментов

Для преодоления этих ограничений последние исследования сосредоточены на агентном рассуждении, когда LLM динамично взаимодействуют с внешними инструментами и средами во время процесса рассуждения. Эти инструменты включают веб-поиск, API и платформы для выполнения кода, а среды варьируются от симулированных браузеров до операционных систем. Агентное рассуждение позволяет моделям планировать, адаптироваться и решать задачи интерактивно, выходя за рамки статичного вывода. Тем не менее, существующие методы интеграции инструментов часто требуют ручного создания подсказок или контролируемой донастройки, что ограничивает масштабируемость и обобщаемость.

Представляем ARTIST: новый фреймворк от Microsoft Research

Microsoft Research представляет ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers) — инновационный фреймворк, объединяющий агентное рассуждение, обучение с подкреплением и динамическое использование инструментов для улучшения возможностей LLM. ARTIST позволяет моделям самостоятельно решать, когда, как и какие инструменты использовать во время многоступенчатого рассуждения без необходимости пошагового контроля. Интеграция запросов к инструментам и их ответов в процесс рассуждения повышает взаимодействие с внешними средами и общую эффективность решения задач.

Обучение с помощью Group Relative Policy Optimization

ARTIST использует метод Group Relative Policy Optimization (GRPO), который исключает функции ценности и базируется на групповом вознаграждении, основанном на результатах. Фреймворк структурирует прогоны на этапы: рассуждение, запросы к инструментам, ответы инструментов и финальные ответы. Используется составная система вознаграждений, стимулирующая правильность, соблюдение формата и успешное использование инструментов. Такая структура способствует адаптивному многоступенчатому решению задач.

Результаты и значение

ARTIST продемонстрировал впечатляющие улучшения на сложных математических и функциональных тестах, включая AMC, AIME и Олимпиады. Он превосходит сильнейшие базовые модели, такие как GPT-4o, достигая улучшения точности Pass@1 до 22% по сравнению с базовыми моделями и более 35% по сравнению с другими методами с интеграцией инструментов. Преимущество ARTIST обеспечивается агентным обучением с подкреплением, позволяющим стратегически использовать инструменты и совершенствовать многоступенчатые решения. По сравнению с подходами на основе подсказок ARTIST демонстрирует лучшее использование инструментов, качество ответов и глубину рассуждений. Даже на более простых наборах данных, таких как MATH-500, ARTIST показывает заметные улучшения за счет выборочного использования инструментов.

Новый стандарт для адаптивного ИИ

ARTIST представляет собой значительный шаг вперед, позволяя LLM самостоятельно планировать, адаптироваться и взаимодействовать с внешними инструментами и средами. Модель обучается эффективным стратегиям использования инструментов без детального контроля, что ведет к повышению точности, более интерпретируемым путям рассуждений и устойчивому поведению. Эта работа подчеркивает перспективность агентного обучения с подкреплением для создания более адаптивных и мощных AI-систем.