Набор данных MIRIAD с 5,8 млн пар вопросов и ответов меняет медицинский ИИ

Борьба с галлюцинациями в медицинском ИИ с помощью поиска знаний

Большие языковые модели (LLM) обещают революционизировать здравоохранение, предоставляя интеллектуальную поддержку принятия решений и гибкие чат-ассистенты. Однако их склонность генерировать фактически неверную медицинскую информацию — галлюцинации — представляет серьезную проблему. Распространенным решением является Retrieval-Augmented Generation (RAG), при котором внешние медицинские знания разбиваются на небольшие части текста, которые LLM могут извлекать во время генерации ответов. Несмотря на перспективность, существующие методы RAG часто опираются на неструктурированный, шумный медицинский контент, который сложно использовать эффективно.

Ограничения текущих подходов RAG в медицине

Хотя LLM хорошо справляются с общими языковыми задачами, в специализированных областях, таких как медицина, им не хватает точных и актуальных знаний. RAG может быть экономичной альтернативой дорогой дополнительной настройке, обеспечивая привязку моделей к внешней литературе. Однако большинство систем RAG используют универсальные текстовые векторные представления и базы данных, не оптимизированные для медицины. В медицинской сфере отсутствуют крупные качественные наборы данных с вопросами и релевантными, открытыми ответами из реальной практики. Существующие наборы, например PubMedQA или MedQA, слишком малы, структурированы или недостаточно подходят для создания мощных систем поиска.

Представляем MIRIAD: масштабный и проверенный медицинский набор данных

Исследователи из ETH Цюрих, Стэнфорда, Mayo Clinic и других организаций создали MIRIAD — набор данных с более чем 5,8 миллионами пар высококачественных медицинских вопросов и ответов. Каждая пара тщательно переформулирована и основана на рецензируемой литературе посредством полуавтоматического процесса с использованием LLM, фильтров и экспертной проверки. В отличие от предыдущих неструктурированных наборов, MIRIAD предлагает структурированные, доступные для поиска медицинские знания, повышая точность LLM на сложных медицинских задачах на 6,7% и улучшая обнаружение галлюцинаций на 22,5–37%.

Обработка данных и контроль качества

Данные для MIRIAD были собраны из 894 000 медицинских статей корпуса S2ORC, разбитых на чистые предложения с исключением шумного и слишком длинного контента. LLM с помощью структурированных подсказок сгенерировали более 10 миллионов пар вопросов и ответов, которые затем с помощью правил отфильтровали до 5,8 миллионов. Кастомный классификатор, обученный на метках GPT-4, сузил выборку до 4,4 миллиона высококачественных пар. Медицинские эксперты проверили выборочные образцы на точность, релевантность и соответствие источникам. Для удобства изучения создан MIRIAD-Atlas — интерактивная 2D-карта, объединяющая данные по 56 медицинским направлениям с помощью эмбеддингов и методов снижения размерности.

Улучшение качества ответов и обнаружения галлюцинаций

Использование MIRIAD в RAG значительно повышает качество медицинских ответов LLM, улучшая точность на 6,7% по сравнению с неструктурированными данными при равном объеме поиска. Набор данных также значительно увеличивает эффективность обнаружения медицинских галлюцинаций, повышая F1-метрику на 22,5–37%. Обучение моделей поиска на MIRIAD улучшает качество извлечения информации благодаря структурированному и проверенному контенту, что обеспечивает более надежный и точный доступ к медицинским данным.

Исследуйте MIRIAD-Atlas: визуальный инструмент для медицинских знаний

MIRIAD-Atlas предоставляет интерактивную 2D-карту, позволяющую пользователям исследовать и взаимодействовать с набором данных по 56 медицинским специальностям. Такая визуализация облегчает разработку надежного ИИ в здравоохранении, делая сложные медицинские знания более доступными и понятными.

MIRIAD создает прочную основу для будущих медицинских наборов данных, сочетая масштаб, качество и строгую проверку. Он способствует развитию медицинского вопросно-ответного ИИ, улучшению обнаружения галлюцинаций и интеграции с клиническими инструментами.

Подробности доступны в [статье], [репозитории GitHub] и [наборе данных на Hugging Face].