Революция в клинической диагностике: SDBench и MAI-DxO обеспечивают эффективное и экономное ИИ-обоснование решений

Преодоление разрыва в клиническом ИИ-обосновании

Искусственный интеллект обладает большим потенциалом для расширения доступа к экспертному медицинскому мышлению. Однако традиционные методы оценки ИИ часто основаны на упрощённых, статичных сценариях, которые не отражают динамичность реальной клинической практики. Врачи постоянно уточняют диагноз, задавая целенаправленные вопросы и поэтапно интерпретируя новую информацию, взвешивая затраты и пользу тестов, чтобы избежать преждевременных выводов и ненужных процедур.

Ограничения современных методов оценки ИИ

Многие современные модели ИИ хорошо показывают себя на структурированных экзаменах, но эти тесты не учитывают сложность реальных клинических условий. Ранние системы ИИ использовали байесовские методы для последовательной диагностики, но требовали большого экспертного участия. Современные подходы с языковыми моделями оцениваются преимущественно на статичных тестах с выбором ответа или фиксированных клинических случаях, что не передаёт чувствительность к стоимости и итеративность принятия решений, свойственные врачам.

Представляем SDBench: интерактивный диагностический эталон

Для решения этих проблем исследователи Microsoft AI создали SDBench — эталон, основанный на 304 реальных диагностических случаях из New England Journal of Medicine. SDBench превращает случаи в интерактивные симуляции, где ИИ или врачи должны задавать вопросы и назначать тесты перед постановкой окончательного диагноза. Языковая модель выступает в роли «привратника», раскрывая информацию только по запросу, имитируя реальное взаимодействие.

Усиление ИИ с помощью MAI-DxO

Вместе с SDBench разработали систему MAI-DxO, оркестратор, созданный совместно с врачами. Она моделирует виртуальную медицинскую панель, выбирающую наиболее ценные и экономичные диагностические тесты. В связке с языковой моделью OpenAI o3 MAI-DxO достигла точности диагноза до 85,5%, существенно снижая затраты.

Результаты и значимость

Эталон Sequential Diagnosis Benchmark охватывает широкий спектр клинических состояний и использует реалистичные оценки затрат на основе CPT-кодов. Оценки показали, что MAI-DxO последовательно превосходит стандартные модели и врачей, обеспечивая большую точность при меньших затратах. Например, точность 81,9% при стоимости $4735 на случай против 78,6% и $7850 у исходной модели o3. Это демонстрирует эффективное сокращение ненужных тестов за счёт интеллектуального сбора информации.

Перспективы развития

SDBench и MAI-DxO — важный шаг к реалистичному и экономному ИИ в клиническом обосновании. Ограничения включают фокус на сложных случаях с меньшим охватом повседневных заболеваний и условий. В дальнейшем планируется тестирование систем в клиниках и условиях с ограниченными ресурсами, что может изменить глобальное здравоохранение и медицинское образование.