xRouter: RL-маршрутизатор, сокращающий стоимость вызовов LLM до 80%

Что такое xRouter

xRouter — система оркестрации на основе вызовов инструментов от Salesforce AI Research, которая с помощью обучения с подкреплением решает, отвечать ли локально или перенаправлять запрос на внешний LLM. В качестве базового маршрутизатора используется Qwen2.5-7B-Instruct, модель с инструкционным тюнингом и поддержкой вызовов инструментов для выбора, какой моделью обработать запрос и как синтезировать или выбрать итоговый ответ.

Архитектура и основа маршрутизации

Маршрутизатор работает с более чем 20 моделями разных уровней: премиум, стандартными, бюджетными и специализированными. В каталоге упоминаются GPT-5, GPT-4.1, GPT-5-Mini, GPT-5-Nano, o3, Kimi K2, DeepSeek-R1, варианты Qwen3 и несколько GPT-OSS моделей. Для оффлоадинга в экспериментах используется пул из 12 моделей, включающий GPT-5, GPT-4o и другие вариации.

xRouter предоставляет OpenAI-совместимый API и исполняет решения через интерфейс вызовов функций. В реализации применяются DAPO (Distributional Advantage Policy Optimization) внутри RL-фреймворка Verl.

Учет стоимости в вознаграждении и success gating

Задача маршрутизации формулируется как RL-проблема с учетом затрат. Награда за эпизод складывается из бинарного сигнала успеха и штрафа за стоимость. Формула: reward = quality − λ × normalized_cost, где λ — коэффициент штрафа за стоимость. Если финальный ответ неверен, эпизод получает нулевую награду независимо от потраченных средств. Такой подход сначала заставляет добиваться корректности, а затем снижать затраты среди успешных стратегий.

В ходе тренировки создаются три варианта с разными настройками штрафа за стоимость: xRouter-7B-1, xRouter-7B-2 и xRouter-7B-3, которые предлагают разные компромиссы точность/стоимость.

Данные для обучения и устойчивость

Для обучения используют Reasoning360 — набор задач по математике, коду и общему рассуждению с оценками сложности, полученными от опорной модели Qwen3-32B. Примеры стратифицируют по уровням сложности: легкие, средние и сложные. Также добавлены простые и бытовые запросы, retrieval и фактические вопросы, чтобы модель научилась отвечать напрямую, когда это возможно. Каталог моделей и цены регулярно изменяются и искажаются, чтобы избежать переобучения на статичной таблице цен.

Неудачные траектории, например дорогая модель, давшая неправильный ответ, или лишние вызовы, когда маршрутизатор мог ответить сам, учитывают полную стоимость и получают нулевую награду. Это дает чистый обучающий сигнал: корректность открывает доступ к награде, а стоимость формирует политику внутри успешных траекторий.

Поведение при выводе и режимы выполнения

При выводе маршрутизатор поддерживает три режима: (1) ответить напрямую с бекбона, (2) вызвать одну или несколько моделей и синтезировать ответ, (3) вызвать модели и выбрать один из ответов через инструмент select_response. Эти потоки реализованы через интерфейс в стиле OpenAI и исполняются с помощью LiteLLM и SGLang.

На практике обученные xRouter-модели комбинируют прямые и синтезированные ответы. Многие стандартные маршрутизаторы вроде GPT-4o, GPT-4.1, GPT-5 и Qwen-моделей чаще отвечают напрямую, даже при указании оффлоадить, что частично объясняет выигрыш по эффективности у xRouter.

Результаты и показатель cost utility

В ряде бенчмарков — Minerva, MATH-500, Olympiad Bench, AIME-24, AMC-23, Codeforces, Code-Contests и Human-EvalPlus — варианты xRouter-7B стабильно улучшают точность по сравнению с использованием той же базовой модели без обучения. Например, xRouter-7B-2 достигает близкой к GPT-5 точности на Olympiad Bench при затратах около одной восьмой от стоимости оценки GPT-5.

В системных сравнениях xRouter-7B-3 показывает высокие средние результаты на некоторых наборах при умеренных затратах. По задачам вроде GPQA варианты xRouter достигают примерно 80–90% точности GPT-5, потребляя менее одной пятой стоимости. Исследователи сообщают о сокращении затрат до 60–80% в разных настройках оценки и до 60% на карточке model weights для сопоставимого качества.

Показатель cost utility определяется как точность, деленная на стоимость. Небольшие открытые модели с низкой ценой часто показывают высокую cost utility, но низкую абсолютную точность. xRouter занимает промежуточную позицию, жертвуя частью cost utility ради более высокой производительности, что важно для промышленного применения.

Практическое значение

xRouter показывает, что средний по размеру маршрутизатор, обученный с помощью DAPO и success-gated, cost-shaped вознаграждения на Reasoning360, может приблизиться к точности топовых моделей и при этом существенно сократить расходы на оффлоадинг. Такой подход делает его практичным решением для управления гетерогенным парком LLM в условиях ограниченного бюджета.

Подробности доступны в статье и карточке model weights, указанных авторами.