AlphaGenome: DeepMind научился читать «тёмную материю» ДНК

Google DeepMind представила AlphaGenome — AI-модель для анализа генома, способную предсказывать эффекты мутаций в некодирующей ДНК. Это открывает путь к пониманию редких генетических заболеваний.

Геном — это наша клеточная инструкция по эксплуатации. Полный набор ДНК управляет почти всем в живом организме: от внешности и функций до роста и размножения. Но лишь 2% генома кодируют белки — оставшиеся 98% долгое время называли «мусорной ДНК». Теперь DeepMind показала, что эта «тёмная материя» генома может хранить ключи к пониманию редких заболеваний.

Что такое AlphaGenome

AlphaGenome — новая AI-модель от Google DeepMind, способная предсказывать, как мутации в ДНК влияют на широкий спектр биологических процессов, регулирующих гены. Исследование опубликовано в Nature и модель уже доступна учёным через API.

Модель принимает на вход последовательность ДНК длиной до 1 миллиона «букв» (пар оснований) и предсказывает тысячи молекулярных свойств. Она может определить, где начинаются и заканчиваются гены в разных типах клеток, где происходит сплайсинг, сколько РНК производится, какие участки ДНК доступны или связаны определёнными белками.

Это веха для отрасли. Впервые у нас есть единая модель, объединяющая дальний контекст, базовую точность и state-of-the-art производительность по всему спектру геномных задач. — Д-р Калеб Лару, Memorial Sloan Kettering Cancer Center

Как это работает

AlphaGenome строит на предыдущих разработках DeepMind — Enformer и AlphaMissense. Enformer анализировал регуляцию генов, AlphaMissense специализировался на мутациях в кодирующих регионах. AlphaGenome объединяет оба подхода и расширяет их на некодирующую ДНК — те самые 98%, где скрываются многие варианты, связанные с заболеваниями.

Архитектура модели использует свёрточные слои для обнаружения коротких паттернов, трансформеры для коммуникации информации через всю последовательность, и финальные слои для генерации предсказаний по разным модальностям. Обучение занимает 4 часа на TPU и требует вдвое меньше вычислительных ресурсов, чем оригинальный Enformer.

Ключевые возможности:

Анализ до 1 млн пар оснований с разрешением в одну букву
Предсказание тысяч молекулярных свойств одновременно
Оценка эффекта мутации за секунду
Моделирование сплайс-соединений — впервые напрямую из последовательности

Почему некодирующая ДНК важна

Представьте геном как книгу. Кодирующие регионы — это слова. Некодирующая ДНК — это пунктуация, разметка, инструкции по форматированию. Без правильной пунктуации слова теряют смысл. Мутация в некодирующем регионе может «выключить» ген, включить его в неправильное время или в неправильных клетках — что ведёт к заболеваниям.

Многие редкие генетические заболевания, такие как спинальная мышечная атрофия и некоторые формы муковисцидоза, вызываются ошибками в РНК-сплайсинге — процессе, где части молекулы РНК удаляются и оставшиеся концы соединяются. AlphaGenome впервые может явно моделировать расположение и уровень экспрессии этих соединений.

Применения в медицине

DeepMind приводит пример использования AlphaGenome для исследования механизма рака. У пациентов с Т-клеточным острым лимфобластным лейкозом (T-ALL) исследователи наблюдали мутации в определённых локациях генома. AlphaGenome предсказала, что мутации активируют ближайший ген TAL1 через введение ДНК-связывающего мотива MYB — что подтвердило известный механизм заболевания.

AlphaGenome станет мощным инструментом для отрасли. Определение релевантности различных некодирующих вариантов крайне сложно, особенно в масштабе. Этот инструмент предоставит критически важную часть пазла. — Профессор Марк Мансур, University College London

Потенциальные применения включают понимание механизмов заболеваний, синтетическую биологию (проектирование ДНК с заданными регуляторными функциями) и фундаментальные исследования функциональных элементов генома.

Ограничения

DeepMind честно признаёт текущие ограничения. Как и другие модели на основе последовательностей, AlphaGenome пока не может точно учитывать влияние очень далёких регуляторных элементов — тех, что находятся дальше 100 000 букв. Улучшение клеточной и тканевой специфичности предсказаний остаётся приоритетом.

Модель не предназначена для персональных геномных предсказаний — известная проблема для AI-моделей в этой области. Она также не даёт полной картины того, как генетические вариации приводят к сложным признакам или заболеваниям, которые часто зависят от факторов развития и окружающей среды.

Доступность

AlphaGenome доступна для некоммерческого использования через API на GitHub. Предсказания модели предназначены только для исследований и не валидированы для клинического применения. Исследователи могут присоединиться к форуму сообщества для обратной связи и обсуждения use-cases.

Для коммерческого использования DeepMind предлагает подать заявку. Полная публикация модели планируется в будущем.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

AlphaGenome: DeepMind научился читать «тёмную материю» ДНК

Что такое AlphaGenome

Как это работает

Почему некодирующая ДНК важна

Применения в медицине

Ограничения

Доступность

Похожие новости

Создатель AlphaGo покинул DeepMind ради собственного стартапа

Genie 3: Google создаёт игровые миры из текста в реальном времени

Gemini помогла доказать теорему в алгебраической геометрии