MedAgentBench: бенчмарк Stanford для AI-агентов в реальных рабочих процессах EHR

Что такое MedAgentBench

MedAgentBench — новый набор тестов от исследователей Stanford, предназначенный для оценки агентных возможностей больших языковых моделей в условиях здравоохранения. В отличие от статичных задач вопрос-ответ, он создает виртуальную среду электронных медицинских записей, где агенты должны взаимодействовать с данными пациента, планировать многошаговые задачи и выполнять действия, такие как оформление документации и назначение обследований.

Почему нужен именно такой бенчмарк

Современные LLM всё чаще действуют как агенты: они понимают инструкции высокого уровня, вызывают API, интегрируют данные пациента и управляют многошаговыми процессами. В медицине это может снизить нагрузку на персонал, уменьшить объем документации и повысить эффективность административных процессов. Существующие общие бенчмарки не отражают специфики медицины, такую как совместимость с FHIR и длительная история болезни; MedAgentBench закрывает этот пробел, предлагая воспроизводимую и клинически релевантную среду оценки.

Состав бенчмарка и данные пациентов

В набор входят 300 задач в 10 категориях, составленных лицензированными врачами. Задачи охватывают извлечение информации о пациенте, отслеживание результатов анализов, оформление документации, назначение тестов, направления и управление медикаментами, в среднем требуя 2–3 шага для имитации типичных рабочих процессов в стационаре и амбулатории. Для тестирования используются 100 реалистичных профилей пациентов из репозитория STARR Stanford с более чем 700 000 записей: анализы, жизненные показатели, диагнозы, процедуры и назначения. Данные были деидентифицированы и слегка модифицированы для приватности при сохранении клинической достоверности.

Среда и совместимость с FHIR

Окружение соответствует стандарту FHIR и поддерживает как чтение (GET), так и изменение данных (POST). Агентам доступна симуляция реалистичных клинических взаимодействий, например запись жизненных показателей или создание назначений, что делает бенчмарк применимым к реальным EHR-системам.

Оценка моделей и результаты

Оценка проводится по показателю успеха задачи (task success rate) с жестким pass@1, отражающим требования безопасности в реальной клинической практике. Были протестированы 12 ведущих LLM, включая GPT-4o, Claude 3.5 Sonnet, Gemini 2.0, DeepSeek-V3, Qwen2.5 и Llama 3.3. Базовый оркестратор предоставлял девять FHIR-функций и ограничивал взаимодействие восемью раундами на задачу. Лучший результат показал Claude 3.5 Sonnet v2 — 69.67% успеха, особенно хорошо в задачах извлечения данных (85.33%). GPT-4o показал 64.0%, DeepSeek-V3 — 62.67% и лидировал среди моделей с открытыми весами. В целом модели хорошо справлялись с запросами, но испытывали трудности с задачами, требующими безопасного выполнения действий в несколько шагов.

Типичные ошибки моделей

Выделились два основных типа ошибок: несоблюдение инструкций, приводящее к неверным вызовам API или некорректному JSON, и несоответствие формата вывода, когда модели возвращали развернутые предложения вместо требуемых структурированных числовых значений. Эти проблемы подчёркивают нехватку точности и надежности, критичных для клинического внедрения.

Последствия для развития медицинских AI

MedAgentBench стал первым крупномасштабным бенчмарком для оценки LLM-агентов в условиях, приближенных к реальным EHR, сочетая задачи, составленные клиницистами, с реальными профилями пациентов и FHIR-совместимой средой. Результаты показывают потенциал в задачах извлечения информации, но подчёркивают необходимость улучшения безопасного выполнения действий и структурированного вывода. Несмотря на ограничения, связанные с данными одного учреждения и фокусом на EHR, проект предоставляет открытую и воспроизводимую платформу для развития надежных медицинских AI-агентов.

Подробнее в статье и техническом блоге. Репозиторий проекта доступен на GitHub с учебными материалами, кодом и ноутбуками. DOI исследования: https://ai.nejm.org/doi/full/10.1056/AIdbp2500144.