Google AI представила MedGemma-1.5: Улучшенные открытые медицинские модели

Обзор MedGemma-1.5

Компания Google Research расширила свою программу Основы разработки Health AI (HAI-DEF) с выпуском MedGemma-1.5. Эта модель с открытым исходным кодом предлагает разработчикам основу для создания и адаптации медицинских систем обработки изображений, текста и речи согласно местным рабочим процессам и нормативам.

Изображение от изделия MedGemma

Многофункциональность MedGemma-1.5

MedGemma-1.5-4B разработан для работы с различными типами медицинских данных, включая текст, 2D изображения, 3D объемы и полноразмерные слайды патологии. При этом он поддерживает обработку реальных клинических данных. Более крупная модель MedGemma-1-27B по-прежнему доступна для сложных текстовых задач.

Достижения в области визуализации

Одно из ключевых обновлений в MedGemma-1.5 - это способность обрабатывать объемные данные с высокой разрешающей способностью. Это включает анализ 3D томографий и МРТ наряду с подсказками на естественном языке. Отмечены значительные улучшения: точность CT значительно увеличилась с 58% до 61%, а МРТ с 51% до 65%.

Объемная визуализация

Улучшение бенчмарков

В практическом применении MedGemma-1.5 улучшает бенчмарки, связанные с производством: она увеличивает анатомическую локализацию в рентгеновских снимках из 3% до 38%, а точность в долгосрочных сравнениях из 61% до 66%. Дополнительно, точность в извлечении данных из лабораторных отчетов увеличилась с 60% до 78%, что уменьшает потребность в кастомизированных решениях.

Обновления внедрения

Усиление обработки медицинского текста

MedGemma-1.5 также демонстрирует улучшения в задачах обработки медицинского текста. Точность на бенчмарке MedQA увеличилась с 64% до 69%, а точность EHRQA - с 68% до 90%. Это делает MedGemma-1.5 эффективной опорой для суммирования данных и ответов на вопросы из медицинских записей.

Введение MedASR

Вместе с MedGemma-1.5 Google представила MedASR, модель распознавания речи с учетом особенностей медицинской тематики. Нацеленная на клинические потоки диктовки, MedASR эффективно снижает ошибки транскрипции по сравнению с общими моделями, достигая показателя ошибки слов всего 5.2%.

Основные выводы

MedGemma-1.5-4B - это компактная мультимодальная модель, которая эффективно обрабатывает различные типы медицинских данных.
Ключевые улучшения в бенчмарках визуализации повышают диагностическую точность по многим модальностям.
Улучшенные возможности обработки текста способствуют более сложным клиническим приложениям.
MedASR предлагает надежное решение для потребностей распознавания речи в клинических условиях.

Для подробной информации ознакомьтесь с Весами модели и техническими подробностями.