Nemotron-Tool-N1: революция в использовании инструментов LLM через обучение с подкреплением и минимальное сопровождение

Развитие интеграции инструментов в большие языковые модели

Интеграция внешних инструментов в большие языковые модели (LLM) становится популярным подходом для расширения их возможностей в различных областях. Традиционные методы требуют синтеза большого объема данных использования инструментов и обучения с учителем (SFT) для улучшения способности моделей вызывать инструменты. Однако такие синтетические наборы данных часто не содержат явных шагов рассуждения, из-за чего обучение фокусируется на поверхностных шаблонах вызовов инструментов, а не на глубоком понимании.

Ограничения предыдущих подходов

Ранее исследования концентрировались на двух основных стратегиях: подборке и доработке наборов данных, а также улучшении рассуждений через сложные методы масштабирования во время тестирования. Первая стратегия включает создание больших наборов данных с аннотациями и применение продвинутых методов обучения, таких как SFT и обучение с подкреплением с обратной связью от человека. Вторая направлена на улучшение рассуждений с помощью пошагового обучения и моделей вознаграждения. Несмотря на это, многие модели демонстрируют псевдорсуждения, имитируя шаблоны без реального понимания принятия решений.

Представляем Nemotron-Research-Tool-N1

Исследователи из NVIDIA, Пенсильванского государственного университета и Университета Вашингтона предложили серию Nemotron-Research-Tool-N1 для преодоления этих ограничений. Этот подход отходит от традиционного SFT и дистилляции трасс рассуждений, реализуя новую парадигму обучения с подкреплением (RL), вдохновленную успехом DeepSeek-R1. Используется легковесный метод сопровождения, оценивающий вызовы инструментов по структурной корректности и функциональной правильности с помощью бинарной системы вознаграждения. Это позволяет модели самостоятельно развивать стратегии рассуждений без явных аннотаций.

Данные и методология

Команда объединила и предобработала данные из существующих наборов для вызова инструментов, таких как xLAM и часть ToolACE, включающих одноступенчатые и многоступенчатые синтетические траектории. Разработан гибкий шаблон подсказок с явными инструкциями для промежуточных рассуждений в тегах … и вызовов инструментов в …. Шаблон снижает жесткие ограничения формата и уменьшает переобучение на конкретные паттерны. В качестве основной модели использован Qwen2.5-7B/14B-Instruct, а также проведена оценка на различных моделях семейства LLaMA для проверки обобщаемости.

Результаты на бенчмарках

На бенчмарке BFCL модели Nemotron-Research-Tool-N1 (7B/14B) превзошли закрытые модели, такие как GPT-4o, и специализированные модели с дообучением, включая xLAM-2-70B и ToolACE-8B. Они также опередили SFT-базисы, обученные на тех же данных, что подтверждает эффективность подхода RL в стиле R1. Аналогично, на бенчмарке API-Bank модели Tool-N1-7B/14B показали точность на 4.12% и 5.03% выше GPT-4o соответственно. Эти результаты демонстрируют потенциал метода для значительного улучшения возможностей вызова инструментов в LLM с минимальным сопровождением.

Влияние и перспективы

Nemotron-Research-Tool-N1 представляет собой смену парадигмы от традиционного дообучения к обучению с подкреплением для тренировки использования инструментов. Позволяя моделям самостоятельно формировать стратегии рассуждений без явных аннотаций, этот подход открывает новые возможности для создания более адаптивных и интеллектуальных языковых моделей. Это может привести к дальнейшим улучшениям и более широкому применению LLM.

Подробнее в статье и на GitHub. Следите за последними новостями AI в нашем сообществе и рассылке.