Представляем Nucleotide Transformer v3 (NTv3) для геномики
NTv3 революционизирует предсказание и проектирование геномов с помощью своей модели для нескольких видов.
Понимание NTv3 в геномике
Предсказание и проектирование геномов требуют моделей, которые связывают локальные мотивы с мегабазными регуляторными контекстами среди различных организмов. Nucleotide Transformer v3 (NTv3) – это инновационная основная модель геномики InstaDeep, созданная для этой цели, которая объединяет изучение представлений, предсказание функциональных треков и аннотацию геномов, а также контролируемую генерацию последовательностей в единой структуре, рассчитанной на обработку 1 Mb контекстов с разрешением на уровне отдельных нуклеотидов.
Преимущества по сравнению с предыдущими моделями
Ранее модели Nucleotide Transformer продемонстрировали сильные функции предсказания молекулярных фенотипов благодаря самообучающемуся предобучению на тысячах геномов. Оригинальная серия включала модели размером от 50M до 2,5B параметров, обученных на 3 200 геномах человека и 850 дополнительных геномах различных видов. NTv3 сохраняет эту концепцию предобучения только по последовательностям, в то время как расширяет ее на более длинные контексты и включает явный функциональный надзор и генерирующий режим.

Архитектура для геномных окон размером 1 Mb
NTv3 использует архитектуру в стиле U-Net, нацеленную на длительные геномные окна. Входная последовательность сжимается с помощью свёрточной башни, стек трансформеров моделирует дальние зависимости в этом сжатом пространстве, а деконволюционная башня восстанавливает разрешение базового уровня для предсказания и генерации. Входные данные токенизируются на уровне символов по A, T, C, G, N с специальными токенами, такими как <unk>, <pad>, <mask>, <cls>, <eos>, и <bos>. Длина последовательности должна быть кратной 128 токенам, а использование дополнения позволяет гарантировать это.
Самая маленькая публичная модель, NTv3 8M pre, состоит примерно из 7,69M параметров с скрытым размером 256 и 2 слоями трансформеров. В то время как NTv3 650M имеет скрытый размер 1 536, 12 слоев трансформеров и специфические слои условной обработки для голов предсказания.
Обширные данные для обучения
Модель NTv3 предобучается на 9 триллионах пар оснований ресурса OpenGenome2 с использованием маскированного языкового моделирования на базовом разрешении. Эта фаза затем дополняется постобучением с помощью совместной цели, сочетающей самообучение и супервизорное обучение по более чем 16 000 функциональным трекам и аннотационным меткам из 24 видов.
Метрики производительности и бенчмаркинг
После постобучения NTv3 достигает лучшей в своем классе точности для предсказания функциональных треков и аннотации геномов среди различных видов. Она превосходит значительные модели последовательности к функции и предыдущие основные модели геномики на публичных бенчмарках, а также на новом Ntv3 Benchmark, который определяется как контролируемый набор для тонкой настройки с стандартизированными 32 kb входными окнами и выходами на базовом разрешении. Benchmark охватывает 106 задач, включая задачи на длительные расстояния, одиночные нуклеотиды, кросс-анализы и кросс-виды.
От предсказания к контролируемой генерации последовательностей
Кроме предсказательных возможностей, NTv3 может быть донастроен в контролируемую генерирующую модель с использованием маскированного языкового моделирования. Эта возможность позволяет модели получать сигналы управления, кодирующие желаемые уровни активности усилителей и избирательности промоторов, заполняя маскированные сегменты ДНК в соответствии с заданными условиями.
Команда успешно разработала 1 000 последовательностей усилителей с предопределенными значениями активности, которые были валидированы in vitro с использованием STARR seq assays в сотрудничестве с лабораторией Старка. Результаты показывают, что эти генерируемые усилители поддерживают запланированную последовательность уровней активности, достигая более чем двухкратного улучшения избирательности промотора по сравнению с базовыми значениями.
Ключевые выводы
- Комплексная модель для геномики: NTv3 объединяет изучение представлений, предсказания функциональных треков, аннотацию геномов и контролируемую генерацию последовательностей в единой архитектуре в стиле U-Net для разрешения на уровне нуклеотидов 1 Mb среди 24 видов.
- Обширные данные для обучения: Использование 9 триллионов пар оснований с совместной целью расширяет приложения и точность модели.
- Лучшие в своем классе показатели: Превосходя предыдущие модели по публичным бенчмаркам, NTv3 подтверждает свою эффективность на Ntv3 Benchmark с 106 стандартизированными задачами.
- Инновационный дизайн усилителей: Основная модель позволяет генерировать валидированные последовательности усилителей, демонстрируя улучшенную специфичность и уровни активности.
Switch Language
Read this article in English