AlphaGenome: DeepMind научился читать «тёмную материю» ДНК
Google DeepMind представила AlphaGenome — AI-модель для анализа генома, способную предсказывать эффекты мутаций в некодирующей ДНК. Это открывает путь к пониманию редких генетических заболеваний.

Геном — это наша клеточная инструкция по эксплуатации. Полный набор ДНК управляет почти всем в живом организме: от внешности и функций до роста и размножения. Но лишь 2% генома кодируют белки — оставшиеся 98% долгое время называли «мусорной ДНК». Теперь DeepMind показала, что эта «тёмная материя» генома может хранить ключи к пониманию редких заболеваний.
Что такое AlphaGenome
AlphaGenome — новая AI-модель от Google DeepMind, способная предсказывать, как мутации в ДНК влияют на широкий спектр биологических процессов, регулирующих гены. Исследование опубликовано в Nature и модель уже доступна учёным через API.
Модель принимает на вход последовательность ДНК длиной до 1 миллиона «букв» (пар оснований) и предсказывает тысячи молекулярных свойств. Она может определить, где начинаются и заканчиваются гены в разных типах клеток, где происходит сплайсинг, сколько РНК производится, какие участки ДНК доступны или связаны определёнными белками.
Это веха для отрасли. Впервые у нас есть единая модель, объединяющая дальний контекст, базовую точность и state-of-the-art производительность по всему спектру геномных задач. — Д-р Калеб Лару, Memorial Sloan Kettering Cancer Center
Как это работает
AlphaGenome строит на предыдущих разработках DeepMind — Enformer и AlphaMissense. Enformer анализировал регуляцию генов, AlphaMissense специализировался на мутациях в кодирующих регионах. AlphaGenome объединяет оба подхода и расширяет их на некодирующую ДНК — те самые 98%, где скрываются многие варианты, связанные с заболеваниями.
Архитектура модели использует свёрточные слои для обнаружения коротких паттернов, трансформеры для коммуникации информации через всю последовательность, и финальные слои для генерации предсказаний по разным модальностям. Обучение занимает 4 часа на TPU и требует вдвое меньше вычислительных ресурсов, чем оригинальный Enformer.
Ключевые возможности:
- Анализ до 1 млн пар оснований с разрешением в одну букву
- Предсказание тысяч молекулярных свойств одновременно
- Оценка эффекта мутации за секунду
- Моделирование сплайс-соединений — впервые напрямую из последовательности
Почему некодирующая ДНК важна
Представьте геном как книгу. Кодирующие регионы — это слова. Некодирующая ДНК — это пунктуация, разметка, инструкции по форматированию. Без правильной пунктуации слова теряют смысл. Мутация в некодирующем регионе может «выключить» ген, включить его в неправильное время или в неправильных клетках — что ведёт к заболеваниям.
Многие редкие генетические заболевания, такие как спинальная мышечная атрофия и некоторые формы муковисцидоза, вызываются ошибками в РНК-сплайсинге — процессе, где части молекулы РНК удаляются и оставшиеся концы соединяются. AlphaGenome впервые может явно моделировать расположение и уровень экспрессии этих соединений.
Применения в медицине
DeepMind приводит пример использования AlphaGenome для исследования механизма рака. У пациентов с Т-клеточным острым лимфобластным лейкозом (T-ALL) исследователи наблюдали мутации в определённых локациях генома. AlphaGenome предсказала, что мутации активируют ближайший ген TAL1 через введение ДНК-связывающего мотива MYB — что подтвердило известный механизм заболевания.
AlphaGenome станет мощным инструментом для отрасли. Определение релевантности различных некодирующих вариантов крайне сложно, особенно в масштабе. Этот инструмент предоставит критически важную часть пазла. — Профессор Марк Мансур, University College London
Потенциальные применения включают понимание механизмов заболеваний, синтетическую биологию (проектирование ДНК с заданными регуляторными функциями) и фундаментальные исследования функциональных элементов генома.
Ограничения
DeepMind честно признаёт текущие ограничения. Как и другие модели на основе последовательностей, AlphaGenome пока не может точно учитывать влияние очень далёких регуляторных элементов — тех, что находятся дальше 100 000 букв. Улучшение клеточной и тканевой специфичности предсказаний остаётся приоритетом.
Модель не предназначена для персональных геномных предсказаний — известная проблема для AI-моделей в этой области. Она также не даёт полной картины того, как генетические вариации приводят к сложным признакам или заболеваниям, которые часто зависят от факторов развития и окружающей среды.
Доступность
AlphaGenome доступна для некоммерческого использования через API на GitHub. Предсказания модели предназначены только для исследований и не валидированы для клинического применения. Исследователи могут присоединиться к форуму сообщества для обратной связи и обсуждения use-cases.
Для коммерческого использования DeepMind предлагает подать заявку. Полная публикация модели планируется в будущем.


