GPT-5.5 шесть дней без сна улучшал AlphaFold2 — и нашёл, что улучшить

Исследователь Крис Хайдук запустил GPT-5.5 в режиме автономной цели на 150 часов. Модель сама придумывала топологические улучшения AlphaFold2 и тестировала их.

Шесть с половиной суток подряд. Столько GPT-5.5 безостановочно работал в одиночку, пытаясь найти улучшения для AlphaFold2 — главной системы предсказания структуры белков. Запустил эксперимент исследователь Крис Хайдук, который к концу прогона получил полностью автономный цикл «гипотеза → код → обучение → оценка», без единой ручной коррекции.

Не «модель помогла». Не «модель ускорила». Модель сама сформулировала идеи, реализовала их на Python и проверила.

Что произошло

Хайдук запустил GPT-5.5 в режиме «цели» (goal mode) внутри Codex Cloud — это новая возможность, позволяющая модели работать над одной задачей часами или сутками без перерыва. Постановка задачи была сформулирована примерно так: «Найди топологически вдохновлённые архитектурные изменения, которые улучшат AlphaFold2».

Это не банальная просьба написать функцию. AlphaFold2 — флагманский продукт DeepMind, за который в 2024 году дали Нобелевскую премию по химии. Её внутреннее устройство хорошо изучено сотнями групп по всему миру. Найти в нём настоящее улучшение — задача уровня небольшой научной публикации.

Модель работала с упрощённой реализацией SimplexFold (открытый клон AlphaFold2). Она написала собственный исследовательский конвейер: генерация архитектурных вариантов, обучение мини-моделей на синтетических данных, оценка по метрике C-alpha lDDT (стандартная метрика качества предсказания структуры). За 150 часов GPT-5.5 успел перебрать десятки идей.

Финальный результат — модификация архитектуры, дающая 0,4311 по lDDT на валидационном наборе. Это улучшение над базовой версией SimplexFold, найденное полностью автономно.

Почему это интересно

Сам по себе результат 0,4311 — не сенсация. SOTA на CASP-наборах у AlphaFold2 и его потомков давно в районе 0,85–0,9. Хайдук работал на упрощённой версии задачи и небольших моделях, так что цифры тут служат скорее доказательством принципа.

Сенсация — в способе. Модель формулировала научные гипотезы вроде «давайте попробуем добавить топологический инвариант на основе персистентной гомологии» и проверяла их сама. Без человека, который сидит и говорит «попробуй ещё это». 150 часов работы — это эквивалент примерно полного спринта PhD-студента.

В декабре 2024 OpenAI уже публиковала похожий опыт: GPT-5 оптимизировала бесклеточный синтез белка в роботизированной лаборатории и снизила удельную стоимость на 40%. Тогда модель ещё была привязана к коротким циклам и нуждалась в постоянном контроле.

150-часовой эксперимент Хайдука показывает следующий шаг: длительная автономная работа над сложной научной задачей с ничтожной интервенцией.

Что нового в Codex Cloud

«Goal mode» — это режим, в котором Codex Cloud не просто выполняет команды, а удерживает контекст цели на протяжении длительного времени. Модель ведёт собственный журнал прогресса, переоценивает гипотезы и сама решает, когда переключиться на новый подход.

Главные технические возможности:

Длительные сессии: до недели непрерывной работы
Самостоятельное планирование: модель сама делит цель на подцели
Чекпоинтинг: при сбое процесс восстанавливается из последнего состояния
Доступ к выполнению: код запускается в изолированной песочнице

OpenAI не публиковала формальной документации по goal mode, но в Codex SDK этот режим уже доступен через специальный набор системных промптов. Платные пользователи могут запускать собственные эксперименты.

Чем это отличается от AI Co-Scientist Google

В апреле Google DeepMind показала AI Co-Mathematician — асинхронный научный workbench, который достигает 48% на FrontierMath Tier 4. Подход у Google и OpenAI принципиально разный.

Google делает специализированных AI-агентов под конкретную область (математика, физика, биология). У них фиксированный workflow: поиск литературы, формулировка гипотезы, формальная верификация, вывод теорем. Это «agent harness», заточенный под науку.

Подход Хайдука и OpenAI — наоборот, минималистичный. Берут общую модель GPT-5.5, дают ей долгий горизонт и инструменты (Python, GPU, поиск). Дальше модель сама решает, как организовать исследование. По его словам, она в итоге сама написала себе «планировщик экспериментов» внутри своих же скриптов.

Какая школа победит — пока непонятно. Универсальный подход проще в разработке и легче переносится между областями. Специализированный обычно даёт лучшие цифры в своей нише.

Что это значит для индустрии

Для биотеха это аккуратный сигнал: автономные исследовательские агенты перестают быть демкой. Если стартапу нужно перебрать сотни архитектурных вариантов модели предсказания, поиска лиганд или классификации патологий — теперь можно просто запустить goal mode на неделю.

Для академии — повод задуматься. Если PhD-студент тратит шесть месяцев на то, что модель делает за шесть дней (пусть и на упрощённой задаче), вопрос ценности человека-исследователя становится острым. Хайдук в комментариях подчёркивает: модель пока работает только на чётко поставленных задачах с измеримыми метриками. Открытые научные вопросы — где даже непонятно, что считать прогрессом, — для неё пока недоступны.

Для OpenAI это маркетинг будущего. Сделка с Cerebras на 750 МВт инференса, переговоры о $1 триллионе долларов инфраструктуры — всё это окупится, только если AI начнёт зарабатывать в науке и инженерии. Демонстрации вроде Хайдука как раз про это.

Что дальше

Хайдук пообещал опубликовать препринт с подробностями архитектуры, найденной моделью. Это критический момент: если изменение действительно работает на полной AlphaFold2 на CASP-наборах, это будет первая работа в structural biology, где основной автор — нейросеть.

Ждать стоит ещё одной вещи. OpenAI почти наверняка использует подобные эксперименты, чтобы тренировать следующее поколение моделей на «длинных горизонтах». GPT-5.5 уже умеет работать неделю без сна. Что будет уметь GPT-6 — большой открытый вопрос.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GPT-5.5 шесть дней без сна улучшал AlphaFold2 — и нашёл, что улучшить

Что произошло

Почему это интересно

Что нового в Codex Cloud

Чем это отличается от AI Co-Scientist Google

Что это значит для индустрии

Что дальше

Похожие новости

GPT-5.5: OpenAI делает ставку на агентские бизнес-задачи, а не на чат

ChatGPT теперь видит ваш банковский счёт: личные финансы через Plaid

Novo Nordisk закладывает OpenAI в производство — от пробирки до упаковки