BioReason: революция в ИИ для геномики с экспертным биологическим анализом

Преодоление разрыва между данными ДНК и биологическим пониманием

Основной проблемой применения ИИ в геномике является отсутствие интерпретируемого, пошагового объяснения сложных данных ДНК. Хотя фундаментальные модели ДНК успешно распознают последовательности для задач, таких как предсказание вариантов и регуляция генов, они часто работают как "черные ящики", предоставляя мало информации о биологических механизмах. В то же время большие языковые модели (LLM) хорошо справляются с логическим анализом в разных областях, но не предназначены для работы с сырыми геномными последовательностями. Этот разрыв между продвинутым представлением ДНК и глубоким биологическим анализом мешает ИИ достичь экспертного уровня понимания и ограничивает потенциал для научных открытий через объяснения, основанные на гипотезах.

Развитие и ограничения моделей в геномном ИИ

Фундаментальные модели ДНК достигли значительного прогресса, обучаясь на геномных последовательностях и показывая высокие результаты в различных биологических задачах. Например, Evo2 демонстрирует впечатляющие возможности моделирования длинных последовательностей, но отсутствие интерпретируемости ограничивает глубокое понимание биологии. Большие языковые модели отлично справляются с анализом биомедицинских текстов, но не работают напрямую с сырыми данными ДНК. Ранние попытки, такие как GeneGPT и TxGemma, пытаются объединить эти подходы, однако существующие бенчмарки оценивают в основном производительность, а не качество рассуждений или генерации гипотез.

Представляем BIOREASON: гибридную модель ИИ

Исследователи из Университета Торонто, Института Vector, University Health Network, Arc Institute, Cohere, Университета Калифорнии в Сан-Франциско и Google DeepMind разработали BIOREASON — инновационную систему ИИ, объединяющую фундаментальную модель ДНК и большую языковую модель. Это позволяет BIOREASON анализировать сырые геномные последовательности и применять LLM-основанный анализ для получения ясных биологических инсайтов. Обучение с учителем и с подкреплением обеспечивает прирост производительности более 15% по сравнению с традиционными моделями, достигая до 97% точности в предсказании болезней на основе KEGG-путей. Интерпретируемые, пошаговые объяснения значительно продвигают понимание биологии и способствуют генерации научных гипотез.

Принцип работы BIOREASON

BIOREASON — это мультимодальная система, сочетающая геномные последовательности с запросами на естественном языке для глубокого и интерпретируемого биологического анализа. Модель ДНК извлекает богатые контекстные эмбеддинги из сырых данных, которые объединяются с токенизированными текстовыми запросами, формируя единый вход для LLM Qwen3. Система обучена генерировать пошаговые объяснения биологических процессов. Эмбеддинги ДНК проецируются в пространство LLM через обучаемый слой, а объединённый вход обогащается позиционным кодированием. Обучение с подкреплением методом Group Relative Policy Optimization дополнительно улучшает способности рассуждения.

Результаты и примеры

BIOREASON оценивали на трёх наборах данных, сосредоточенных на интерпретации вариантов ДНК и биологическом анализе. Он превзошёл модели, основанные только на ДНК или только на LLM, в предсказании заболеваний по геномным вариантам. Лучшее сочетание Evo2 и Qwen3-4B показало высокие показатели точности и F1 по всем задачам. В примере с мутацией PFN1, связанной с БАС, BIOREASON точно предсказал болезнь и создал подробное 10-шаговое объяснение влияния варианта на динамику актина и дегенерацию мотонейронов. Это демонстрирует не только точность предсказаний, но и способность давать прозрачные, биологически обоснованные рассуждения.

Перспективы и значимость

BIOREASON уникально сочетает энкодеры ДНК с большими языковыми моделями для детального и интерпретируемого анализа геномных данных. В отличие от традиционных моделей, он объясняет биологическую логику своих предсказаний пошагово, помогая учёным лучше понимать механизмы заболеваний и формулировать новые исследовательские вопросы. Несмотря на мощь, BIOREASON сталкивается с проблемами высокой вычислительной нагрузки и ограниченной оценки неопределённости. Будущие исследования направлены на улучшение масштабируемости, интеграцию дополнительных биологических данных, таких как РНК и белки, и расширение области применения, включая задачи GWAS. BIOREASON обладает потенциалом для значительного прогресса в области точной медицины и геномных исследований.

Для дополнительной информации смотрите статью, GitHub и страницу проекта в оригинальной публикации.