AlphaFold спустя пять лет: реальное влияние, ограничения и будущее

Рубеж в науке о белках

В 2017 году Джон Джампeр пришел в Google DeepMind и через три года стал соавтором AlphaFold 2 — системы, предсказывающей структуры белков с почти атомной точностью и в тысячи раз быстрее традиционных лабораторных методов. Этот прорыв решил многолетнюю задачу в биологии и в 2024 году принес Джампeру и Демису Хассабису Нобелевскую премию по химии.

Как работает AlphaFold и почему это сработало

AlphaFold 2 использует трансформеры, архитектуру нейросетей, применяемую и в больших языковых моделях. Трансформеры умеют концентрироваться на релевантных частях сложной задачи, что пригодилось для предсказания, как цепочки аминокислот складываются в трехмерные структуры. Команда также делала упор на быстрые прототипы: модели, которые быстро выдавали неверные ответы, позволяли быстро тестировать и отбрасывать идеи. Обучение на обширных данных о структуре и эволюции белков существенно повысило качество предсказаний.

Масштабирование и доступность

После AlphaFold 2 появились AlphaFold Multimer для комплексов из нескольких белков и AlphaFold 3, самая быстрая версия. DeepMind применил модель к базе UniProt и сгенерировал предсказания для примерно 200 миллионов белков — почти всего, что известно науке. Джампeр подчеркивает: это база предсказаний с оговорками, а не безусловная истина.

Неожиданные применения

Исследователи использовали AlphaFold в областях, о которых команда не задумывалась: например, группа изучала устойчивость пчел к болезням. Другие применяли AlphaFold как верификатор дизайна белков: если модель уверенно подтверждала желаемую структуру синтетического белка, его клонировали; если модель говорила 'не уверен', эксперименты откладывали, что сокращало время проектирования до десятикратного ускорения.

AlphaFold также стал поисковым инструментом. В исследованиях оплодотворения ученые сопоставляли известный белок яйцеклетки со всеми белками поверхности сперматозоидов и нашли кандидата, который затем подтвердили в лаборатории. Такие массовые сравнения вручную были бы непрактичны.

Ограничения и осторожность в использовании

AlphaFold полезен, но не безупречен. Он хуже прогнозирует взаимодействия множества белков, динамику взаимодействий и связывание с малыми молекулами. Иногда предсказание выглядит пограничным или вводящим в заблуждение — 'он будет врать с той же уверенностью, с какой даст правильный ответ', как отметил один исследователь. Поэтому результаты интерпретируют осторожно.

Многие лаборатории используют AlphaFold для виртуального отбора гипотез перед выполнением экспериментов в пробирках. Инструмент дополняет лабораторную работу и экономит время, но не заменяет валидацию в лаборатории.

Новая волна инструментов для разработки лекарств

Стартапы и университеты развивают направление дальше: модели, ориентированные на задачи разработки лекарств. Например, Boltz-2 предсказывает структуру белка и оценивает связывание потенциальных лекарств, а Pearl обещает лучшую точность в некоторых задачах важного для разработки лекарств и предлагает интерактивную подстройку под дополнительные данные.

Некоторые компании стремятся снизить погрешность предсказаний с уровня ниже двух ангстрем до менее чем одного ангстрема. Это важно, потому что отличия в один ангстрем могут изменить, будут ли химические силы обеспечивать связывание молекул.

Как AlphaFold впишется в будущее науки

Джампeр напоминает, что предсказание структуры белка — это важная, но не единственная задача биологии. Оно делает многие эксперименты более доступными и дешевыми, но само по себе не создает лекарства. Тем не менее исследователи пытаются сделать предсказание структуры более центральной частью рабочих процессов, используя его как мощный инструмент для ускорения многих этапов работы.

Что дальше для Джампeра и AI в науке

Джампeр хочет объединить узкую, глубокую компетенцию AlphaFold с широкой способностью языковых моделей к чтению и рассуждению. Системы, которые читают научные тексты, предлагают гипотезы и проверяют их с помощью предсказания структур, могут изменить научные рабочие процессы. В DeepMind уже экспериментируют с подходами, где одна модель генерирует идеи, а другая отбирает полезные, и Джампeр ожидает возрастающего влияния LLM на науку. Он также предупреждает о ценности небольших, устойчивых идей вместо гонки за громкими достижениями.