GPT-5.5 шесть дней без сна улучшал AlphaFold2 — и нашёл, что улучшить
Исследователь Крис Хайдук запустил GPT-5.5 в режиме автономной цели на 150 часов. Модель сама придумывала топологические улучшения AlphaFold2 и тестировала их.

Шесть с половиной суток подряд. Столько GPT-5.5 безостановочно работал в одиночку, пытаясь найти улучшения для AlphaFold2 — главной системы предсказания структуры белков. Запустил эксперимент исследователь Крис Хайдук, который к концу прогона получил полностью автономный цикл «гипотеза → код → обучение → оценка», без единой ручной коррекции.
Не «модель помогла». Не «модель ускорила». Модель сама сформулировала идеи, реализовала их на Python и проверила.
Что произошло
Хайдук запустил GPT-5.5 в режиме «цели» (goal mode) внутри Codex Cloud — это новая возможность, позволяющая модели работать над одной задачей часами или сутками без перерыва. Постановка задачи была сформулирована примерно так: «Найди топологически вдохновлённые архитектурные изменения, которые улучшат AlphaFold2».
Это не банальная просьба написать функцию. AlphaFold2 — флагманский продукт DeepMind, за который в 2024 году дали Нобелевскую премию по химии. Её внутреннее устройство хорошо изучено сотнями групп по всему миру. Найти в нём настоящее улучшение — задача уровня небольшой научной публикации.
Модель работала с упрощённой реализацией SimplexFold (открытый клон AlphaFold2). Она написала собственный исследовательский конвейер: генерация архитектурных вариантов, обучение мини-моделей на синтетических данных, оценка по метрике C-alpha lDDT (стандартная метрика качества предсказания структуры). За 150 часов GPT-5.5 успел перебрать десятки идей.
Финальный результат — модификация архитектуры, дающая 0,4311 по lDDT на валидационном наборе. Это улучшение над базовой версией SimplexFold, найденное полностью автономно.
Почему это интересно
Сам по себе результат 0,4311 — не сенсация. SOTA на CASP-наборах у AlphaFold2 и его потомков давно в районе 0,85–0,9. Хайдук работал на упрощённой версии задачи и небольших моделях, так что цифры тут служат скорее доказательством принципа.
Сенсация — в способе. Модель формулировала научные гипотезы вроде «давайте попробуем добавить топологический инвариант на основе персистентной гомологии» и проверяла их сама. Без человека, который сидит и говорит «попробуй ещё это». 150 часов работы — это эквивалент примерно полного спринта PhD-студента.
В декабре 2024 OpenAI уже публиковала похожий опыт: GPT-5 оптимизировала бесклеточный синтез белка в роботизированной лаборатории и снизила удельную стоимость на 40%. Тогда модель ещё была привязана к коротким циклам и нуждалась в постоянном контроле.
150-часовой эксперимент Хайдука показывает следующий шаг: длительная автономная работа над сложной научной задачей с ничтожной интервенцией.
Что нового в Codex Cloud
«Goal mode» — это режим, в котором Codex Cloud не просто выполняет команды, а удерживает контекст цели на протяжении длительного времени. Модель ведёт собственный журнал прогресса, переоценивает гипотезы и сама решает, когда переключиться на новый подход.
Главные технические возможности:
- Длительные сессии: до недели непрерывной работы
- Самостоятельное планирование: модель сама делит цель на подцели
- Чекпоинтинг: при сбое процесс восстанавливается из последнего состояния
- Доступ к выполнению: код запускается в изолированной песочнице
OpenAI не публиковала формальной документации по goal mode, но в Codex SDK этот режим уже доступен через специальный набор системных промптов. Платные пользователи могут запускать собственные эксперименты.
Чем это отличается от AI Co-Scientist Google
В апреле Google DeepMind показала AI Co-Mathematician — асинхронный научный workbench, который достигает 48% на FrontierMath Tier 4. Подход у Google и OpenAI принципиально разный.
Google делает специализированных AI-агентов под конкретную область (математика, физика, биология). У них фиксированный workflow: поиск литературы, формулировка гипотезы, формальная верификация, вывод теорем. Это «agent harness», заточенный под науку.
Подход Хайдука и OpenAI — наоборот, минималистичный. Берут общую модель GPT-5.5, дают ей долгий горизонт и инструменты (Python, GPU, поиск). Дальше модель сама решает, как организовать исследование. По его словам, она в итоге сама написала себе «планировщик экспериментов» внутри своих же скриптов.
Какая школа победит — пока непонятно. Универсальный подход проще в разработке и легче переносится между областями. Специализированный обычно даёт лучшие цифры в своей нише.
Что это значит для индустрии
Для биотеха это аккуратный сигнал: автономные исследовательские агенты перестают быть демкой. Если стартапу нужно перебрать сотни архитектурных вариантов модели предсказания, поиска лиганд или классификации патологий — теперь можно просто запустить goal mode на неделю.
Для академии — повод задуматься. Если PhD-студент тратит шесть месяцев на то, что модель делает за шесть дней (пусть и на упрощённой задаче), вопрос ценности человека-исследователя становится острым. Хайдук в комментариях подчёркивает: модель пока работает только на чётко поставленных задачах с измеримыми метриками. Открытые научные вопросы — где даже непонятно, что считать прогрессом, — для неё пока недоступны.
Для OpenAI это маркетинг будущего. Сделка с Cerebras на 750 МВт инференса, переговоры о $1 триллионе долларов инфраструктуры — всё это окупится, только если AI начнёт зарабатывать в науке и инженерии. Демонстрации вроде Хайдука как раз про это.
Что дальше
Хайдук пообещал опубликовать препринт с подробностями архитектуры, найденной моделью. Это критический момент: если изменение действительно работает на полной AlphaFold2 на CASP-наборах, это будет первая работа в structural biology, где основной автор — нейросеть.
Ждать стоит ещё одной вещи. OpenAI почти наверняка использует подобные эксперименты, чтобы тренировать следующее поколение моделей на «длинных горизонтах». GPT-5.5 уже умеет работать неделю без сна. Что будет уметь GPT-6 — большой открытый вопрос.


