<НА ГЛАВНУЮ

NVIDIA запускает Orchestrator-8B: управление AI-моделями

Узнайте о Orchestrator-8B от NVIDIA, который улучшает выбор инструментов с помощью обучения с подкреплением.

Что движет выбором инструментов в AI?

Как может AI-система научиться выбирать правильную модель или инструмент для каждого шага задачи, а не полагаться на одну большую модель? Исследователи NVIDIA представляют ToolOrchestra, новый метод обучения небольшой языковой модели, которая действует как оркестратор — мозг гетерогенного агента для использования инструментов.

От одиночных моделей к политике оркестрации

Большинство современных агентов используют единую большую модель, какGPT-5, которая решает, когда использовать конкретные инструменты. ToolOrchestra меняет эту парадигму, обучая специализированную модель-контроллер, Orchestrator-8B, что позволяет как классическим инструментам, так и LLM работать как вызываемые компоненты.

Обширное исследование показывает, что наивного приглашения недостаточно. При маршрутизации между различными моделями наблюдается самосовершенствующаяся предвзятость, что приводит к чрезмерному использованию сильных моделей, таких как GPT-5.

Что такое Orchestrator-8B?

Orchestrator-8B - это трансформер с параметрами в 8 миллиардов, дообученный от Qwen3-8B для улучшения задач оркестрации. В процессе вывода он использует многоходовой процесс, состоящий из трех основных шагов:

  1. Читает инструкции пользователя и предпочтения (например, приоритизируя низкую задержку).
  2. Генерирует размышления и планирует действия.
  3. Выбирает инструмент и издает структурированный JSON-вызов, который исполняется в окружении с обратной связью.

Инструменты делятся на три группы: базовые инструменты (поиск в интернете, интерпретатор Python), специализированные LLM и универсальные инструменты LLM.

Обучение с подкреплением от начала до конца с многообъектными наградами

ToolOrchestra рассматривает весь процесс как процесс принятия решений Маркова. Он отслеживает историю разговора, вызовы инструментов и предпочтения пользователей, получая награды на основе выполнения задач, эффективности и соответствия предпочтениям.

Система наград включает три компонента: награда за использование результата (выполнена ли задача), эффективность (штрафы за стоимость и задержку) и награды за соответствие предпочтениям пользователей.

Данная политика оптимизируется через Group Relative Policy Optimization (GRPO), повышая стабильность траектории.

Результаты тестирования и стоимость

Команда NVIDIA оценила Orchestrator-8B по строгим критериям: Человеческий последний экзамен, FRAMES и τ² Bench, демонстрируя значительные улучшения в точности и эффективности:

  • Человеческий последний экзамен: 37.1% точности для Orchestrator-8B против 35.1% для GPT-5.
  • Эффективность: Orchestrator-8B стоит примерно на 30% дешевле и работает в 2.5 раза быстрее.

Ключевые выводы

  1. ToolOrchestra обучает Orchestrator-8B выбирать инструменты и LLM для многоступенчатых задач с использованием вознаграждений за результаты и эффективность.
  2. Orchestrator-8B доступен на Hugging Face и координирует различные инструменты по единой структуре.
  3. Модель доказывает свою эффективность в многочисленных тестах, сохраняя более низкие затраты.
  4. Основываясь на фреймворке, недостатки наивного приглашения становятся очевидными, а преимущества обученного оркестратора становятся более выраженными.

Редакционные заметки

ToolOrchestra от NVIDIA подчеркивает значительный сдвиг в AI-системах, используя Orchestrator-8B для оптимизации выбора инструментов, достигнув значительной экономии и повышения эффективности по сравнению с традиционными моделями. Эта инновация подчеркивает важность политики оркестрации в разработке AI.

🇬🇧

Switch Language

Read this article in English

Switch to English