Biomni-R0: LLM с обучением через RL достигает экспертного уровня биомедицинского мышления
‘Biomni-R0 использует end-to-end reinforcement learning и экспертно заданные награды для обучения 8B и 32B биомедицинских агентов, которые превосходят более крупные общие модели по многим задачам.’