NVIDIA запускает Orchestrator-8B: управление AI-моделями
Узнайте о Orchestrator-8B от NVIDIA, который улучшает выбор инструментов с помощью обучения с подкреплением.
Что движет выбором инструментов в AI?
Как может AI-система научиться выбирать правильную модель или инструмент для каждого шага задачи, а не полагаться на одну большую модель? Исследователи NVIDIA представляют ToolOrchestra, новый метод обучения небольшой языковой модели, которая действует как оркестратор — мозг гетерогенного агента для использования инструментов.
От одиночных моделей к политике оркестрации
Большинство современных агентов используют единую большую модель, какGPT-5, которая решает, когда использовать конкретные инструменты. ToolOrchestra меняет эту парадигму, обучая специализированную модель-контроллер, Orchestrator-8B, что позволяет как классическим инструментам, так и LLM работать как вызываемые компоненты.
Обширное исследование показывает, что наивного приглашения недостаточно. При маршрутизации между различными моделями наблюдается самосовершенствующаяся предвзятость, что приводит к чрезмерному использованию сильных моделей, таких как GPT-5.
Что такое Orchestrator-8B?
Orchestrator-8B - это трансформер с параметрами в 8 миллиардов, дообученный от Qwen3-8B для улучшения задач оркестрации. В процессе вывода он использует многоходовой процесс, состоящий из трех основных шагов:
- Читает инструкции пользователя и предпочтения (например, приоритизируя низкую задержку).
- Генерирует размышления и планирует действия.
- Выбирает инструмент и издает структурированный JSON-вызов, который исполняется в окружении с обратной связью.
Инструменты делятся на три группы: базовые инструменты (поиск в интернете, интерпретатор Python), специализированные LLM и универсальные инструменты LLM.
Обучение с подкреплением от начала до конца с многообъектными наградами
ToolOrchestra рассматривает весь процесс как процесс принятия решений Маркова. Он отслеживает историю разговора, вызовы инструментов и предпочтения пользователей, получая награды на основе выполнения задач, эффективности и соответствия предпочтениям.
Система наград включает три компонента: награда за использование результата (выполнена ли задача), эффективность (штрафы за стоимость и задержку) и награды за соответствие предпочтениям пользователей.
Данная политика оптимизируется через Group Relative Policy Optimization (GRPO), повышая стабильность траектории.
Результаты тестирования и стоимость
Команда NVIDIA оценила Orchestrator-8B по строгим критериям: Человеческий последний экзамен, FRAMES и τ² Bench, демонстрируя значительные улучшения в точности и эффективности:
- Человеческий последний экзамен: 37.1% точности для Orchestrator-8B против 35.1% для GPT-5.
- Эффективность: Orchestrator-8B стоит примерно на 30% дешевле и работает в 2.5 раза быстрее.
Ключевые выводы
- ToolOrchestra обучает Orchestrator-8B выбирать инструменты и LLM для многоступенчатых задач с использованием вознаграждений за результаты и эффективность.
- Orchestrator-8B доступен на Hugging Face и координирует различные инструменты по единой структуре.
- Модель доказывает свою эффективность в многочисленных тестах, сохраняя более низкие затраты.
- Основываясь на фреймворке, недостатки наивного приглашения становятся очевидными, а преимущества обученного оркестратора становятся более выраженными.
Редакционные заметки
ToolOrchestra от NVIDIA подчеркивает значительный сдвиг в AI-системах, используя Orchestrator-8B для оптимизации выбора инструментов, достигнув значительной экономии и повышения эффективности по сравнению с традиционными моделями. Эта инновация подчеркивает важность политики оркестрации в разработке AI.
Switch Language
Read this article in English