Google AI выпустила DeepPolisher: новый инструмент на базе глубокого обучения для точной коррекции ошибок в сборках геномов
Google AI и Институт геномики UC Santa Cruz выпустили DeepPolisher — инструмент глубокого обучения, значительно снижающий ошибки в сборках геномов и повышающий точность эталонных человеческих геномов.
Улучшение точности сборок генома с помощью DeepPolisher
Google AI совместно с Институтом геномики Университета Калифорнии в Санта-Крузе представили DeepPolisher — современный инструмент глубокого обучения, созданный для существенного повышения точности сборок геномов за счёт коррекции ошибок на уровне отдельных оснований. Этот инструмент уже показал впечатляющие результаты в развитии проекта Human Pangenome Reference, важного достижения в области геномики.
Задача точной сборки генома
Сборка генома является фундаментом для изучения генетического разнообразия, наследственности и механизмов заболеваний. Несмотря на значительный прогресс технологий секвенирования от компаний Illumina и Pacific Biosciences, создание безошибочной сборки человеческого генома остаётся сложной задачей. Даже незначительная ошибка на отдельном основании может привести к тысячам неточностей, что затрудняет обнаружение важных генетических вариаций и вводит в заблуждение дальнейший анализ.
Что такое DeepPolisher?
DeepPolisher — это открытый инструмент коррекции ошибок в сборках, основанный на трансформерной архитектуре глубокого обучения. Он развивает идеи предыдущих инструментов, таких как DeepConsensus, и эффективно снижает количество ошибок вставок и удалений (инделов), которые могут смещать рамки считывания и приводить к пропуску важных генов и регуляторных элементов.
- Технология: трансформер только с энкодером, адаптированный из обработки естественного языка.
- Обучающие данные: тщательно охарактеризованная человеческая клеточная линия, секвенированная с помощью различных платформ с точностью около 99.99999%.
Принцип работы DeepPolisher
- Входные данные: выровненные PacBio HiFi чтения по фазированным сборкам генома.
- Обнаружение ошибок: сканирование сборки в окнах по 25 тыс. оснований для выявления участков с расхождениями.
- Кодирование данных: создание многоканальных тензоров с признаками выравнивания, включая основание, качество основания, качество маппинга и статус совпадения.
- Инференс модели: трансформер предсказывает исправленные последовательности для выявленных ошибок.
- Вывод: разницы формируются в формате VCF и применяются к сборке с помощью bcftools, создавая полированную и высокоточную последовательность.
Эффективность и влияние
DeepPolisher демонстрирует значительные улучшения:
- Снижение общего числа ошибок примерно на 50%.
- Сокращение индел-ошибок более чем на 70%.
- Ошибки достигают уровня одной ошибки на 500 000 оснований.
- Повышение качества сборки с Q66.7 до Q70.1, что означает менее одной ошибки на 12 миллионов оснований.
Каждый образец, обработанный в рамках Human Pangenome Reference Consortium, показал улучшения, что подтверждает эффективность DeepPolisher в повышении качества эталонных сборок.
Использование и применение
Инструмент используется в крупных проектах, например, во втором релизе данных HPRC, охватывающем 232 человека с различным происхождением. DeepPolisher доступен с открытым исходным кодом на GitHub, с Docker-образами и примерами для работы с HiFiasm и PacBio HiFi. Хотя он оптимизирован для человека, его архитектура позволяет применять его и к другим организмам и платформам секвенирования.
Пример рабочего процесса
Типичный рабочий процесс включает ввод диплоидной сборки HiFiasm и PacBio HiFi чтений с фазированием через PHARAOH, запуск Docker-команд для инференса и применения исправлений, и получение полированных FASTA-файлов с отдельными VCF для материнских и отцовских гаплотипов. Для оценки улучшений используются инструменты dipcall и Hap.py.
Продвижение геномных исследований
Снижая уровень ошибок, DeepPolisher повышает разрешающую способность сборок, что способствует функциональной геномике, выявлению редких вариантов и клиническим приложениям. Инструмент устраняет ключевой барьер на пути к совершенным сборкам генома, поддерживая точную диагностику и исследования популяционной генетики. Выпуск DeepPolisher — важный шаг к следующим поколениям эталонных проектов, приносящих пользу биомедицинским исследованиям и медицине.
Для технической информации, обучающих материалов и кода посетите страницу DeepPolisher на GitHub и следите за сообществом.
Switch Language
Read this article in English