MCP-Bench показывает пределы LLM: 28 серверов и 250 реальных инструментов
Зачем нужен MCP-Bench
Современные большие языковые модели уже не ограничиваются генерацией текста и всё чаще должны работать с внешними инструментами — API, базами данных и библиотеками — чтобы решать реальные задачи. MCP-Bench создан, чтобы проверить простое, но важное: умеет ли агент планировать, рассуждать и координировать работу между несколькими инструментами и доменами в условиях реальной неопределённости.
Как устроен MCP-Bench
Бенчмарк использует протокол Model Context Protocol и напрямую подключает агента к 28 живым серверам, предоставляющим в сумме 250 инструментов в областях финансов, научных вычислений, здравоохранения, путешествий и академической работы. Задачи проектируются так, чтобы требовать как последовательного, так и параллельного применения инструментов на разных серверах. У каждой задачи есть точное техническое описание для оценки и разговорная, «нечёткая» версия, которую видит агент.
Чем MCP-Bench отличается
Аутентичные задачи: сценарии включают планирование многопунктовых поездок с учётом геоданных и погоды, биомедицинские исследования и научные преобразования единиц — то есть задачи, близкие к реальным пользовательским запросам.
Нечёткие инструкции: агенту не говорят, какие инструменты использовать или какие шаги выполнять; он должен сам вывести необходимую цепочку действий из естественного языка.
Разнообразие инструментов и реализм: бенчмарк охватывает медицинские калькуляторы, научные библиотеки, финансовую аналитику, коллекции иконок и нишевые сервисы, что тестирует способность агентов работать с разными интерфейсами и схемами параметров.
Строгая оценка: задачи автоматически генерируются и фильтруются по разрешимости и значимости. Оценка включает автоматические метрики, например правильность выбора инструмента и параметров, а также проверки с участием LLM-судей для оценки планирования, обоснования и рассуждения.
Как проверяют агентов
Агент получает задачу в разговорной форме и поэтапно решает, какие инструменты вызывать, в каком порядке и как объединять результаты. Рабочие процессы могут требовать нескольких раундов взаимодействия, управления зависимостями и обработки неожиданных результатов. Оценка учитывает выбор инструментов, точность параметров, умение планировать и координировать действия и привязку ответа к полученным доказательствам.
Ключевые выводы
Исследователи протестировали 20 передовых моделей по 104 задачам. Основные наблюдения:
- Базовое использование инструментов в целом надёжно: большинство моделей умеют корректно вызывать инструменты и соблюдать схемы параметров.
- Долгие многошаговые планы остаются проблемой: даже лучшие модели испытывают трудности с решением, когда переходить к следующему шагу, что можно параллелить и как реагировать на неожиданные данные.
- Мелкие модели отстают на сложных задачах, чаще повторяют шаги или упускают подзадачи при распределённых рабочих процессах.
- Эффективность различается: некоторые модели требуют значительно больше вызовов инструментов и раундов взаимодействия для получения схожих результатов.
- Человеческий контроль важен: автоматизация полезна, но проверки человеком обеспечивают реализм и разрешимость задач.
Почему это важно
MCP-Bench даёт практический инструмент для оценки того, могут ли AI-ассистенты надёжно выполнять реальные задачи, когда пользователи дают нечёткие инструкции и ответы требуют объединения данных из разных источников. Бенчмарк выявляет пробелы в планировании, междоменном рассуждении и синтезе на основе доказательств, что критично для внедрения агентов в бизнесе, науке и узкоспециализированных областях. Результаты и сам бенчмарк служат реальностью-чекером для разработчиков и исследователей.