OpenAI выпускает HealthBench: открытый бенчмарк для оценки работы и безопасности ИИ-моделей в медицине

Представляем HealthBench

OpenAI разработала HealthBench — инновационную открытую систему оценки, предназначенную для измерения эффективности и безопасности больших языковых моделей (LLM) в медицинской сфере. Этот бенчмарк создан при участии 262 врачей из 60 стран и 26 медицинских специальностей, что обеспечивает широкий и экспертный подход.

Решение проблем существующих бенчмарков

Традиционные тесты для медицинского ИИ часто используют структурированные форматы, например, тесты с множественным выбором, которые не отражают сложность реальных клинических ситуаций. HealthBench основан на 5 000 многоходовых диалогах между моделями и пользователями — как простыми людьми, так и врачами. Каждый диалог завершается запросом пользователя, а ответы моделей оцениваются по рубрикам, составленным врачами, которые включают положительные и отрицательные критерии с баллами.

Подробная оценка по рубрикам

Рубрики анализируют такие качества, как клиническая точность, ясность коммуникации, полнота и соблюдение инструкций. HealthBench оценивает более 48 000 уникальных критериев, а подсчет баллов выполняется моделью-оценщиком, проверенной по мнению экспертов.

Тематическая структура и варианты бенчмарка

Оценка HealthBench охватывает семь ключевых тем: экстренные направления, глобальное здравоохранение, задачи с медицинскими данными, поиск контекста, коммуникация с учетом уровня экспертизы, глубина ответов и работа в условиях неопределенности. Кроме того, предусмотрены два специализированных набора:

HealthBench Consensus: поднабор из 34 критически важных критериев, подтвержденных врачами.
HealthBench Hard: набор из 1000 сложных диалогов, предназначенных для проверки пределов возможностей моделей.

Результаты тестирования моделей

OpenAI протестировала модели GPT-3.5 Turbo, GPT-4o, GPT-4.1 и новейшую o3. Производительность значительно улучшилась: GPT-3.5 набрал 16%, GPT-4o — 32%, а o3 — 60%. Модель GPT-4.1 nano, меньшая и экономичная, превзошла GPT-4o при снижении стоимости инференса в 25 раз.

Сильные стороны моделей — экстренные направления и адаптированная коммуникация, а трудности вызвали поиск контекста и полнота ответов. Полнота оказалась наиболее коррелированной с общим баллом, что подчеркивает её важность в медицине.

Сравнение с врачами и возможности сотрудничества

Не поддерживаемые моделью врачи в среднем показывали более низкие результаты, но могли улучшать черновики, созданные моделями, особенно ранними версиями. Это указывает на потенциал использования LLM как помощников в клинической документации и принятии решений.

Надежность и стабильность оценок

HealthBench включает метрику "worst-at-k" для оценки стабильности работы моделей при повторных запусках. Новые модели демонстрируют улучшенную стабильность, однако вариативность остается вызовом.

OpenAI также провела проверку автоматического оценщика на более чем 60 000 примерах, показав, что GPT-4.1 соответствует или превосходит средние оценки врачей, что подтверждает его надежность.

Доступность и перспективы

HealthBench доступен в репозитории simple-evals на GitHub, давая исследователям инструменты для оценки, анализа и улучшения моделей, предназначенных для медицины. Этот бенчмарк представляет собой важный шаг к безопасному и эффективному применению ИИ в здравоохранении.

Для подробностей посетите статью, страницу GitHub и официальный релиз.