Biomni-R0: LLM с обучением через RL достигает экспертного уровня биомедицинского мышления

Роль ИИ в биомедицинских исследованиях

ИИ в биомедицине уже не ограничивается поиском фактов: сегодня ожидают агентов, которые умеют рассуждать в задачах геномики, клинической диагностики и молекулярной биологии. Такие системы должны взаимодействовать с профильными инструментами, понимать иерархии биологических сущностей и моделировать рабочие процессы исследователей для предоставления действительно релевантной помощи.

Проблема достижения экспертного мышления

Большинство больших языковых моделей справляется с поверхностной выдачей или распознаванием паттернов, но слабеет при многошаговом рассуждении, диагностике редких заболеваний или при приоритизации генов. Для этих задач требуется не только доступ к данным, но и контекстуальная интерпретация и специфическое доменное суждение.

Почему традиционные методы недостаточны

Подходы на основе supervised learning или retrieval-augmentation помогают, но часто оказываются хрупкими: статичные подсказки, предопределённое поведение и слабая интеграция с внешними инструментами ограничивают адаптивность. В ситуациях с высокой ставкой ошибки нужна интерпретируемость и устойчивость в длинных цепочках рассуждений.

Biomni-R0: RL-подход для агентских моделей

Учёные из Стэнфорда и Калифорнийского университета в Беркли представили семейство моделей Biomni-R0, обученных с использованием reinforcement learning в специально разработанной биомедицинской среде. Модели Biomni-R0-8B и Biomni-R0-32B объединяют платформу Biomni и RL-инфраструктуру SkyRL, а также используют экспертно размеченные задачи и новую схему наград для продвижения к уровню, сопоставимому с человеческим экспертом.

Пайплайн обучения и архитектурные решения

Обучение проходило в два этапа. Сначала выполнили supervised fine-tuning (SFT) на высококачественных траекториях, полученных из Claude-4 Sonnet методом rejection sampling, чтобы задать структурированные шаблоны рассуждений. Затем применили reinforcement learning с оптимизацией по двум типам наград: за корректность (например, выбор правильного гена или диагноза) и за форматирование ответа (поощрение использования структурированных тегов типа и ).

Чтобы снизить простои GPU при выполнении внешних инструментов, команда реализовала асинхронное планирование роллаутов и разъединила выполнение среды и инференс модели. Контекстное окно расширили до 64k токенов, что позволило поддерживать длинные многошаговые диалоги и рабочие потоки.

Результаты и сравнение с лидерами

Улучшения оказались заметными: Biomni-R0-32B показала итоговый балл 0.669 против 0.346 у базовой модели. Biomni-R0-8B набрала 0.588 и превзошла гораздо более крупные общие модели вроде Claude 4 Sonnet и GPT-5 по ряду задач. По разбивке по задачам Biomni-R0-32B лидировала в 7 из 10 задач, GPT-5 лидировал в 2, а Claude 4 — в 1.

Особенно впечатляют результаты по диагностике редких заболеваний: 0.67 у Biomni-R0-32B против 0.03 у Qwen-32B (более чем в 20 раз выше). В задаче приоритизации вариантов GWAS показатель вырос с 0.16 до 0.74 после RL-подготовки, что подчёркивает ценность доменной оптимизации и наград.

Масштабируемость и значение более длинных траекторий рассуждений

Архитектура системы позволила масштабировать обработку при разной задержке инструментов за счёт разделения исполнения среды и инференса. RL-обученные модели генерировали более длинные и структурированные рассуждения, и длина таких трасс коррелировала с улучшением качества. Это указывает на то, что глубина и явная структура рассуждений являются важными признаками экспертного поведения в биомедицине.

Biomni-R0 показывает, что end-to-end RL с экспертными наградами и продуманной инженерией системы позволяет получить компактные модели, которые превосходят большие общие LLM в критичных для домена задачах, открывая путь к более надёжным биомедицинским агентам.