Google Health AI запускает MedASR для клинической диктовки

Что такое MedASR и как он работает

MedASR — модель распознавания речи на основе архитектуры Conformer, предварительно обученная для медицинского диктовки и транскрипции. Она служит стартовой точкой для разработчиков, ориентированных на создание голосовых приложений в сфере здравоохранения, включая инструменты диктовки в радиологии или системы для захвата заметок о визите.

Модель включает 105 миллионов параметров и принимает одноканальный звук при частоте 16 000 Гц с 16-битными целочисленными звуковыми файлами. Она производит только текстовый вывод, что делает её подходящей для интеграции в последующие модели обработки естественного языка, такие как MedGemma.

MedASR входит в портфель Health AI Developer Foundations, наряду с MedGemma, MedSigLIP и другими специализированными медицинскими моделями, соблюдающими общие условия использования и последовательную структуру управления.

Данные для обучения и специализация по области

MedASR получает преимущества от обучения на разнообразном корпусе де-идентифицированной медицинской речи, включающем около 5000 часов диктовок врачей и клинических бесед в разных специальностях, включая радиологию, внутреннюю медицину и семейную медицину.

Данные для обучения связывают аудиосегменты с транскрипциями и метаданными, аннотируя подмножества медицинскими именованными сущностями, такими как симптомы, лекарства и состояния. Это позволяет модели охватывать клиническую лексику и общие паттерны формулировок, встречающиеся в рутинной документации.

В данный момент модель поддерживает только английский язык, в основном обучаясь на аудио от носителей языка, воспитанных в Соединенных Штатах. Эффективность может варьироваться для других профилей ведущих или в шумной среде, и рекомендуется дообучение.

Архитектура и декодирование

MedASR использует дизайн кодировщика Conformer, который сочетает свёрточные блоки с слоями самовнимания, чтобы улавливать локальные акустические шаблоны и долгосрочные временные зависимости.

Модель выступает как автоматический детектор речи с интерфейсом в стиле CTC. Разработчики могут использовать AutoProcessor для создания входных данных из звуковых файлов и AutoModelForCTC для превращения их в последовательности токенов. По умолчанию применяется жадное декодирование, хотя интеграция с внешней шестиграмной языковой моделью с beam search (размер 8) может улучшить коэффициент ошибок слов.

Обучение проходит с использованием JAX и ML Pathways на аппаратном обеспечении TPUv4p, TPUv5p и TPUv5e, что необходимо для масштабирования больших моделей распознавания речи в соответствии с общей стратегией обучения моделей Google.

Эффективность на медицинских задачах речи

Ключевые результаты включают:

RAD DICT, диктовка радиолога: MedASR (жадно) — 6,6%, MedASR с языковой моделью — 4,6%, конкуренты: Gemini 2.5 Pro — 10,0%, Gemini 2.5 Flash — 24,4%, Whisper v3 Large — 25,3%.
GENERAL DICT, общая и внутренняя медицина: MedASR (жадно) — 9,3%, MedASR с языковой моделью — 6,9%, конкуренты: Gemini 2.5 Pro — 16,4%, Gemini 2.5 Flash — 27,1%, Whisper v3 Large — 33,1%.
FM DICT, семейная медицина: MedASR (жадно) — 8,1%, MedASR с языковой моделью — 5,8%, конкуренты: Gemini 2.5 Pro — 14,6%, Gemini 2.5 Flash — 19,9%, Whisper v3 Large — 32,5%.
Eye Gaze, оценка на 998 случаях рентгена грудной клетки MIMIC: MedASR (жадно) — 6,6%, MedASR с языковой моделью — 5,2%, конкуренты: Gemini 2.5 Pro — 5,9%, Gemini 2.5 Flash — 9,3%, Whisper v3 Large — 12,5%.

Рабочий процесс разработчика и варианты развертывания

**Простой пример канала: **

from transformers import pipeline
import huggingface_hub
 
audio = huggingface_hub.hf_hub_download("google/medasr", "test_audio.wav")
pipe = pipeline("automatic-speech-recognition", model="google/medasr")
result = pipe(audio, chunk_length_s=20, stride_length_s=2)
print(result)

Для большей гибкости разработчики могут загружать AutoProcessor и AutoModelForCTC, изменять частоту звука на 16 000 Гц с помощью librosa, переносить тензоры в CUDA, если это возможно, и затем вызывать model.generate, а затем processor.batch_decode.

Ключевые выводы

MedASR — это легковесная модель распознавания речи с открытыми весами на основе Conformer: С 105 миллионами параметров она создана специально для медицинского диктовки и транскрипции, доступна в рамках программы Health AI Developer Foundations исключительно для разработчиков в сфере здравоохранения на английском языке.
Специальное обучение на 5000 часов де-идентифицированного медицинского аудио: MedASR была дообучена на диктовках врачей и клинических взаимодействиях, что обеспечивает высокую степень освоения клинической терминологии по сравнению с общими системами распознавания речи.
Конкурирующие коэффициенты ошибок слов на бенчмарках медицинского диктовки: На оценках, охватывающих радиологию, общую и семейную медицину, а также датасеты Eye Gaze, MedASR демонстрирует эффективность, которая либо соответствует, либо превосходит большие общие модели, такие как Gemini 2.5 и Whisper v3.

Дополнительные ресурсы и детали реализации можно найти на GitHub и Hugging Face.