Google DeepMind представила AlphaGenome: прорывная модель глубокого обучения для предсказания влияния мутаций в ДНК

AlphaGenome: универсальная модель глубокого обучения для анализа генома

Google DeepMind представила AlphaGenome — инновационную модель глубокого обучения, способную предсказывать регуляторные эффекты вариаций в последовательностях ДНК по множеству биологических параметров. В отличие от предыдущих моделей, AlphaGenome обрабатывает длинные последовательности ДНК до 1 мегабазы и выдает детальные предсказания на уровне отдельных нуклеотидов, включая сплайсинг, доступность хроматина, экспрессию генов и связывание факторов транскрипции.

Продвинутая архитектура и методика обучения

AlphaGenome использует архитектуру в стиле U-Net с трансформерным ядром, обрабатывая ДНК параллельно в блоках по 131 килобазе на TPUv3. Такая конструкция обеспечивает контекстно-зависимые предсказания с разрешением до одного основания. Для моделирования пространственных взаимодействий (например, карт контактов) применяются двумерные эмбеддинги, а для линейных задач генома — одномерные.

Обучение проходит в два этапа: предварительное обучение на экспериментальных данных с использованием моделей для отдельных фолдов и всех фолдов, а затем дистилляция, когда студент-модель учится у учительских моделей, обеспечивая быструю и стабильную работу на GPU, например NVIDIA H100, с временем инференса около одной секунды на вариант.

Высокая эффективность в различных задачах геномики

Широкое тестирование показало, что AlphaGenome превосходит или сравним с современными специализированными и мультимодальными моделями в 22 из 24 задач по трекам генома и в 24 из 26 задачах по предсказанию эффектов вариантов. Особенно заметны успехи в области сплайсинга: модель одновременно прогнозирует сайты сплайсинга, их использование и сплайсинговые соединения с разрешением 1 нуклеотид, обгоняя Pangolin и SpliceAI.

В задаче предсказания eQTL модель показала улучшение на 25,5% в точности определения направления эффекта по сравнению с Borzoi. Для доступности хроматина AlphaGenome продемонстрировала высокую корреляцию с данными DNase-seq и ATAC-seq, превзойдя ChromBPNet на 8-19%.

Предсказание эффектов вариантов без использования популяционных данных

Одно из ключевых преимуществ AlphaGenome — возможность предсказывать эффекты генетических вариантов без опоры на данные популяционной генетики, что делает модель эффективной для редких вариантов и удалённых регуляторных областей. Она оценивает влияние мутаций на сплайсинг, экспрессию и состояние хроматина в мультимодальном режиме. Модель точно воспроизводит клинически наблюдаемые нарушения сплайсинга, такие как пропуск экзонов и появление новых сплайсинговых соединений, что полезно для диагностики редких генетических заболеваний.

Применение в интерпретации GWAS и анализе вариантов, связанных с болезнями

AlphaGenome помогает в интерпретации сигналов GWAS, определяя направление действия вариантов на экспрессию генов. В сравнении с методами колокализации, такими как COLOC, модель покрывает значительно больше локусов с низкой частотой минорного аллеля. В онкогеномике AlphaGenome эффективно оценивает регуляторные мутации, например, в регионах, регулирующих онкоген TAL1 при Т-клеточной острой лимфобластной лейкемии.

AlphaGenome представляет собой значительный шаг вперёд в моделировании геномных данных, объединяя длинноцепочечное моделирование, мультимодальные предсказания и высокое разрешение вывода. Сейчас модель доступна в превью для поддержки исследований в области геномики по всему миру.