Google представляет MedGemma: продвинутые мультимодальные ИИ-модели для анализа медицинских текстов и изображений
Google представила MedGemma — новый открытый набор ИИ-моделей для комплексного анализа медицинских текстов и изображений, доступный разработчикам через Hugging Face и Google Cloud.
Представление MedGemma на Google I/O 2025
Google анонсировала MedGemma — инновационный открытый набор ИИ-моделей, специально разработанных для мультимодального понимания медицинских текстов и изображений. Построенная на архитектуре Gemma 3, MedGemma предоставляет разработчикам мощную основу для создания медицинских приложений с интегрированным анализом как медицинских изображений, так и текстовых данных.
Варианты моделей и архитектура
MedGemma доступна в двух основных конфигурациях:
-
MedGemma 4B: мультимодальная модель с 4 миллиардами параметров, способная обрабатывать медицинские изображения и тексты. Использует кодировщик изображений SigLIP, предварительно обученный на различных обезличенных медицинских данных, включая рентген грудной клетки, дерматологические изображения, офтальмологические снимки и гистопатологические слайды. Компонент языковой модели обучен на разнообразных медицинских данных для всестороннего понимания.
-
MedGemma 27B: текстовая модель с 27 миллиардами параметров, оптимизированная для глубокого понимания медицинских текстов и клинического анализа. Эта версия исключительно настроена для выполнения сложных задач анализа текста.
Развертывание и доступность
Разработчики могут получить доступ к моделям MedGemma через Hugging Face, соглашаясь с условиями использования Health AI Developer Foundations. Модели можно запускать локально для экспериментов или размещать как масштабируемые HTTPS-эндпоинты через Google Cloud Vertex AI для производственных приложений. Google предоставляет ресурсы, включая Colab ноутбуки, для облегчения тонкой настройки и интеграции в различные рабочие процессы.
Применение и сценарии использования
MedGemma служит базовой моделью для различных медицинских приложений:
-
Классификация медицинских изображений: модель 4B подходит для классификации различных медицинских изображений, таких как радиологические снимки и дерматологические фотографии.
-
Интерпретация медицинских изображений: способна создавать отчеты или отвечать на вопросы, связанные с медицинскими изображениями, помогая в диагностике.
-
Анализ клинических текстов: модель 27B отлично справляется с пониманием и суммированием клинических заметок, поддерживая задачи сортировки пациентов и принятия решений.
Адаптация и тонкая настройка
Несмотря на высокую базовую производительность MedGemma, разработчикам рекомендуется проверять и дорабатывать модели под конкретные задачи. Можно использовать методы prompt engineering, обучение с контекстом и эффективные методы тонкой настройки параметров, такие как LoRA. Google предоставляет инструкции и инструменты для поддержки этих процессов.
MedGemma представляет собой значительный шаг вперед в создании доступных и открытых инструментов медицинского ИИ, объединяющих мультимодальные возможности с масштабируемостью и гибкостью, что позволяет разработчикам создавать современные медицинские приложения.
Switch Language
Read this article in English