Google Представляет MedGemma 27B и MedSigLIP: Открытые Модели для Мультимодального Медицинского ИИ

Введение MedGemma 27B Multimodal и MedSigLIP

Google DeepMind и Google Research выпустили две новые открытые модели для медицины в рамках MedGemma: MedGemma 27B Multimodal — крупномасштабная модель, объединяющая обработку изображений и текста, и MedSigLIP — легковесный энкодер изображений и текста, адаптированный под здравоохранение. Эти модели являются наиболее мощными с открытыми весами в рамках Health AI Developer Foundations (HAI-DEF).

Архитектура MedGemma и её задачи

MedGemma основана на трансформерной архитектуре Gemma 3 и адаптирована для решения типичных медицинских задач, включая обработку разнородных данных, ограниченное количество специализированных обучающих примеров и требования к эффективному развертыванию. Модели работают с клиническим текстом и медицинскими изображениями, что позволяет использовать их для диагностики, генерации отчетов, поиска и агентного рассуждения.

MedGemma 27B Multimodal: Продвинутое мультимодальное рассуждение

Модель с 27 миллиардами параметров — трансформер-декодер, принимающий смешанные медицинские изображения и текст. В её основе лежит энкодер изображений высокого разрешения (896×896), построенный на базе SigLIP-400M, обученной на более чем 33 миллионах пар изображений и текстов из разных областей, включая радиологию и гистопатологию.

Ключевые особенности:

Точность 87.7% на MedQA (текстовая версия), превосходящая все открытые модели с менее чем 50 миллиардами параметров.
Эффективное выполнение многоэтапных диагностических задач в симулированной среде AgentClinic.
Комплексное рассуждение на основе истории болезни, изображений и геномики для персонализированного лечения.

Применение в клинике включает мультимодальные вопросы-ответы, генерацию радиологических отчетов, кросс-модальный поиск и моделирование клинических агентов.

MedSigLIP: Легковесный и эффективный энкодер изображений и текста

MedSigLIP состоит из 400 миллионов параметров с разрешением 448×448, что обеспечивает поддержку для мобильного и краевого развертывания. Модель хорошо справляется с классификацией без дообучения и с легким дообучением для задач дерматологии, офтальмологии, гистопатологии и радиологии.

Основные показатели:

Превосходит ELIXR-модель по работе с рентгеновскими снимками грудной клетки на 2% по AUC.
Достигает 0.881 AUC в классификации 79 кожных заболеваний.
Выдает 0.857 AUC при классификации диабетической ретинопатии.
Соответствует или превосходит лучшие модели в классификации подтипов рака.

Модель использует косинусное сходство между векторами изображений и текста для задач zero-shot, а также позволяет дообучение с помощью логистической регрессии.

Открытость и развертывание

MedGemma 27B и MedSigLIP полностью открыты: доступны веса, скрипты обучения и руководства. Они совместимы с инфраструктурой Gemma и могут быть развернуты на одном GPU, включая мобильные устройства с помощью квантизации и дистилляции, при этом требуется минимум кода.