Google представляет MedGemma: продвинутые мультимодальные ИИ-модели для анализа медицинских текстов и изображений

Представление MedGemma на Google I/O 2025

Google анонсировала MedGemma — инновационный открытый набор ИИ-моделей, специально разработанных для мультимодального понимания медицинских текстов и изображений. Построенная на архитектуре Gemma 3, MedGemma предоставляет разработчикам мощную основу для создания медицинских приложений с интегрированным анализом как медицинских изображений, так и текстовых данных.

Варианты моделей и архитектура

MedGemma доступна в двух основных конфигурациях:

MedGemma 4B: мультимодальная модель с 4 миллиардами параметров, способная обрабатывать медицинские изображения и тексты. Использует кодировщик изображений SigLIP, предварительно обученный на различных обезличенных медицинских данных, включая рентген грудной клетки, дерматологические изображения, офтальмологические снимки и гистопатологические слайды. Компонент языковой модели обучен на разнообразных медицинских данных для всестороннего понимания.
MedGemma 27B: текстовая модель с 27 миллиардами параметров, оптимизированная для глубокого понимания медицинских текстов и клинического анализа. Эта версия исключительно настроена для выполнения сложных задач анализа текста.

Развертывание и доступность

Разработчики могут получить доступ к моделям MedGemma через Hugging Face, соглашаясь с условиями использования Health AI Developer Foundations. Модели можно запускать локально для экспериментов или размещать как масштабируемые HTTPS-эндпоинты через Google Cloud Vertex AI для производственных приложений. Google предоставляет ресурсы, включая Colab ноутбуки, для облегчения тонкой настройки и интеграции в различные рабочие процессы.

Применение и сценарии использования

MedGemma служит базовой моделью для различных медицинских приложений:

Классификация медицинских изображений: модель 4B подходит для классификации различных медицинских изображений, таких как радиологические снимки и дерматологические фотографии.
Интерпретация медицинских изображений: способна создавать отчеты или отвечать на вопросы, связанные с медицинскими изображениями, помогая в диагностике.
Анализ клинических текстов: модель 27B отлично справляется с пониманием и суммированием клинических заметок, поддерживая задачи сортировки пациентов и принятия решений.

Адаптация и тонкая настройка

Несмотря на высокую базовую производительность MedGemma, разработчикам рекомендуется проверять и дорабатывать модели под конкретные задачи. Можно использовать методы prompt engineering, обучение с контекстом и эффективные методы тонкой настройки параметров, такие как LoRA. Google предоставляет инструкции и инструменты для поддержки этих процессов.