NVIDIA запускает Orchestrator-8B: управление AI-моделями

Что движет выбором инструментов в AI?

Как может AI-система научиться выбирать правильную модель или инструмент для каждого шага задачи, а не полагаться на одну большую модель? Исследователи NVIDIA представляют ToolOrchestra, новый метод обучения небольшой языковой модели, которая действует как оркестратор — мозг гетерогенного агента для использования инструментов.

От одиночных моделей к политике оркестрации

Большинство современных агентов используют единую большую модель, какGPT-5, которая решает, когда использовать конкретные инструменты. ToolOrchestra меняет эту парадигму, обучая специализированную модель-контроллер, Orchestrator-8B, что позволяет как классическим инструментам, так и LLM работать как вызываемые компоненты.

Обширное исследование показывает, что наивного приглашения недостаточно. При маршрутизации между различными моделями наблюдается самосовершенствующаяся предвзятость, что приводит к чрезмерному использованию сильных моделей, таких как GPT-5.

Что такое Orchestrator-8B?

Orchestrator-8B - это трансформер с параметрами в 8 миллиардов, дообученный от Qwen3-8B для улучшения задач оркестрации. В процессе вывода он использует многоходовой процесс, состоящий из трех основных шагов:

Читает инструкции пользователя и предпочтения (например, приоритизируя низкую задержку).
Генерирует размышления и планирует действия.
Выбирает инструмент и издает структурированный JSON-вызов, который исполняется в окружении с обратной связью.

Инструменты делятся на три группы: базовые инструменты (поиск в интернете, интерпретатор Python), специализированные LLM и универсальные инструменты LLM.

Обучение с подкреплением от начала до конца с многообъектными наградами

ToolOrchestra рассматривает весь процесс как процесс принятия решений Маркова. Он отслеживает историю разговора, вызовы инструментов и предпочтения пользователей, получая награды на основе выполнения задач, эффективности и соответствия предпочтениям.

Система наград включает три компонента: награда за использование результата (выполнена ли задача), эффективность (штрафы за стоимость и задержку) и награды за соответствие предпочтениям пользователей.

Данная политика оптимизируется через Group Relative Policy Optimization (GRPO), повышая стабильность траектории.

Результаты тестирования и стоимость

Команда NVIDIA оценила Orchestrator-8B по строгим критериям: Человеческий последний экзамен, FRAMES и τ² Bench, демонстрируя значительные улучшения в точности и эффективности:

Человеческий последний экзамен: 37.1% точности для Orchestrator-8B против 35.1% для GPT-5.
Эффективность: Orchestrator-8B стоит примерно на 30% дешевле и работает в 2.5 раза быстрее.

Ключевые выводы

ToolOrchestra обучает Orchestrator-8B выбирать инструменты и LLM для многоступенчатых задач с использованием вознаграждений за результаты и эффективность.
Orchestrator-8B доступен на Hugging Face и координирует различные инструменты по единой структуре.
Модель доказывает свою эффективность в многочисленных тестах, сохраняя более низкие затраты.
Основываясь на фреймворке, недостатки наивного приглашения становятся очевидными, а преимущества обученного оркестратора становятся более выраженными.

Редакционные заметки

ToolOrchestra от NVIDIA подчеркивает значительный сдвиг в AI-системах, используя Orchestrator-8B для оптимизации выбора инструментов, достигнув значительной экономии и повышения эффективности по сравнению с традиционными моделями. Эта инновация подчеркивает важность политики оркестрации в разработке AI.