Google Представляет MedGemma 27B и MedSigLIP: Открытые Модели для Мультимодального Медицинского ИИ
Google выпустил открытые модели MedGemma 27B Multimodal и MedSigLIP для масштабируемого мультимодального медицинского ИИ, обеспечивающие высокую точность и эффективность.
Введение MedGemma 27B Multimodal и MedSigLIP
Google DeepMind и Google Research выпустили две новые открытые модели для медицины в рамках MedGemma: MedGemma 27B Multimodal — крупномасштабная модель, объединяющая обработку изображений и текста, и MedSigLIP — легковесный энкодер изображений и текста, адаптированный под здравоохранение. Эти модели являются наиболее мощными с открытыми весами в рамках Health AI Developer Foundations (HAI-DEF).
Архитектура MedGemma и её задачи
MedGemma основана на трансформерной архитектуре Gemma 3 и адаптирована для решения типичных медицинских задач, включая обработку разнородных данных, ограниченное количество специализированных обучающих примеров и требования к эффективному развертыванию. Модели работают с клиническим текстом и медицинскими изображениями, что позволяет использовать их для диагностики, генерации отчетов, поиска и агентного рассуждения.
MedGemma 27B Multimodal: Продвинутое мультимодальное рассуждение
Модель с 27 миллиардами параметров — трансформер-декодер, принимающий смешанные медицинские изображения и текст. В её основе лежит энкодер изображений высокого разрешения (896×896), построенный на базе SigLIP-400M, обученной на более чем 33 миллионах пар изображений и текстов из разных областей, включая радиологию и гистопатологию.
Ключевые особенности:
- Точность 87.7% на MedQA (текстовая версия), превосходящая все открытые модели с менее чем 50 миллиардами параметров.
- Эффективное выполнение многоэтапных диагностических задач в симулированной среде AgentClinic.
- Комплексное рассуждение на основе истории болезни, изображений и геномики для персонализированного лечения.
Применение в клинике включает мультимодальные вопросы-ответы, генерацию радиологических отчетов, кросс-модальный поиск и моделирование клинических агентов.
MedSigLIP: Легковесный и эффективный энкодер изображений и текста
MedSigLIP состоит из 400 миллионов параметров с разрешением 448×448, что обеспечивает поддержку для мобильного и краевого развертывания. Модель хорошо справляется с классификацией без дообучения и с легким дообучением для задач дерматологии, офтальмологии, гистопатологии и радиологии.
Основные показатели:
- Превосходит ELIXR-модель по работе с рентгеновскими снимками грудной клетки на 2% по AUC.
- Достигает 0.881 AUC в классификации 79 кожных заболеваний.
- Выдает 0.857 AUC при классификации диабетической ретинопатии.
- Соответствует или превосходит лучшие модели в классификации подтипов рака.
Модель использует косинусное сходство между векторами изображений и текста для задач zero-shot, а также позволяет дообучение с помощью логистической регрессии.
Открытость и развертывание
MedGemma 27B и MedSigLIP полностью открыты: доступны веса, скрипты обучения и руководства. Они совместимы с инфраструктурой Gemma и могут быть развернуты на одном GPU, включая мобильные устройства с помощью квантизации и дистилляции, при этом требуется минимум кода.
Эти модели делают высокопроизводительный медицинский ИИ доступным для исследователей и клиник без необходимости в проприетарных решениях и дорогостоящих вычислениях, способствуя развитию клинических приложений ИИ.
Switch Language
Read this article in English