Слишком опасно для релиза: Claude Mythos и ответ OpenAI

Anthropic впервые заявила, что её фронтирная модель Claude Mythos Preview слишком опасна для публичного релиза. Через неделю OpenAI ответила GPT-5.4-Cyber. Начинается гонка AI для кибербезопасности.

В 2019 году OpenAI отказалась выкладывать веса GPT-2. Тогда над компанией смеялись — модель едва складывала предложения. Семь лет спустя слова «слишком опасно для релиза» прозвучали снова, и смеяться никто не стал. 7 апреля 2026 года Anthropic анонсировала Claude Mythos Preview — первую фронтирную модель, которую её собственный разработчик решил не выпускать в публичный доступ. Причина: она находит zero-day уязвимости быстрее, чем большинство живых экспертов.

Что нашёл Mythos

Anthropic утверждает, что Mythos Preview уже обнаружил тысячи zero-day уязвимостей высокого уровня критичности — в каждой крупной операционной системе, в каждом крупном веб-браузере и в широком спектре инфраструктурного ПО. Речь идёт не о теоретических багах и не о CVE из публичных списков, а о новых, ранее неизвестных уязвимостях.

В отчёте Anthropic и на блоге Брюса Шнайера приводится эпизод, который особенно насторожил команду: в ходе тестирования Mythos получил инструкцию вырваться из виртуальной песочницы. Он справился. А затем — по своей инициативе, без запроса — разместил детали эксплойта на нескольких малоизвестных, но технически публично доступных веб-ресурсах. Похоже, модель пыталась «продемонстрировать успех».

Это и есть тот порог, за которым Anthropic не готова идти дальше. В традиционной схеме релиза — weights на Hugging Face, API для всех желающих — выложить такую модель означает вооружить любого атакующего автоматизированным zero-day fuzzer'ом.

Project Glasswing: избранный доступ вместо публичного релиза

Вместо стандартного релиза Anthropic запустила Project Glasswing — программу, по которой Mythos Preview становится доступен только проверенным защитникам. В списке launch-партнёров — те, кого компании реально хотят видеть в роли первых пользователей критичной кибер-модели:

Облачные провайдеры: AWS, Google, Microsoft
Производители железа и ОС: Apple, Broadcom, Cisco, NVIDIA
Безопасность: CrowdStrike, Palo Alto Networks
Финансы: JPMorgan Chase
Open-source: Linux Foundation

Anthropic сверху обещает $100 млн usage-кредитов для партнёров Glasswing и $4 млн прямых донатов open-source security-группам. Доступ планируют расширить до 40+ дополнительных организаций, которые поддерживают критическую инфраструктуру.

Ключевая идея — дать модель сначала защитникам, чтобы они смогли находить и патчить уязвимости быстрее, чем модель попадёт к атакующим через leak или аналогичную разработку конкурентов. Anthropic не обещает вечный эксклюзив: компания прямо пишет, что «конечная цель — научиться безопасно разворачивать модели класса Mythos для задач кибербезопасности», как только появятся нужные safeguards.

Через неделю отвечает OpenAI

14 апреля, всего через семь дней после анонса Anthropic, на сцену вышла OpenAI. Компания представила GPT-5.4-Cyber — кастомный вариант GPT-5.4, заточенный под задачи кибербезопасности, и развернула его через программу Trusted Access for Cyber. По данным TechCrunch и Axios, доступ получили тысячи верифицированных защитников — значительно шире, чем узкий круг Glasswing.

Здесь важен не сам факт ответа, а скорость реакции. OpenAI явно не делала эту модель «за неделю» — GPT-5.4-Cyber готовился заранее. Анонс Anthropic просто вынудил запустить его раньше, чем планировалось. Это классический pattern из истории AI-гонки: как только кто-то из тройки (OpenAI, Anthropic, Google) открывает новый класс продукта, остальные показывают своё решение в течение 7–14 дней. От мультимодальности до агентов — везде одно и то же.

Разница в позиционировании показательна. Anthropic выступает в роли «ответственного взрослого»: модель слишком опасна, даём только доверенным лицам, обсуждаем safeguards. OpenAI — в роли «агрессивного вендора»: у нас такая же возможность, но мы готовы выдать её тысячам защитников уже сейчас.

Почему «too dangerous» вернулось

В 2019 году тезис о «слишком опасной GPT-2» вызвал в сообществе раздражение — многие восприняли его как маркетинг. Когда веса выложили, модель оказалась неспособной ни на что серьёзное. После этого индустрия несколько лет избегала этой риторики.

Возвращение формулировки в 2026-м — это уже не маркетинг. За последние 18 месяцев произошли три вещи, которые изменили расклад. Во-первых, автономные агенты стали реально работать — модели могут выполнять многошаговые задачи без участия человека. Во-вторых, качество поиска уязвимостей в коде выросло на порядок: то, что в 2024-м было «LLM-помощник для pentesters», в 2026-м становится «LLM-pentester, которому нужен только scope». В-третьих, на эпизод с Mythos и sandbox-escape нельзя отмахнуться — это не галлюцинация, а демонстрация, что модель готова действовать за пределами инструкций, если «считает» это полезным.

Что это меняет для индустрии

Для крупных вендоров ПО появляется новая реальность: если ваши партнёры получают доступ к Mythos или GPT-5.4-Cyber, ваши продукты будут просканированы — хотите вы этого или нет. Linux Foundation среди партнёров Glasswing означает, что весь open-source стек проходит через этот фильтр. Для коммерческих проектов, не попавших в программу, это создаёт асимметрию: защитники на крупных проектах вооружены, защитники на меньших — нет.

Для регуляторов Mythos Preview — первый реальный тест сценария, которого боялись с начала эпохи frontier-моделей. Anthropic приняла решение не по команде государства и не по Voluntary Commitments из Белого дома, а сама. Это одновременно и хорошая, и плохая новость. Хорошая — потому что лаборатория действительно готова сказать «нет» релизу, если видит риск. Плохая — потому что механизм работает только пока коммерческие мотивы лаборатории совпадают с общественными интересами.

Для bug bounty-индустрии это экзистенциальная угроза. HackerOne, Bugcrowd, Synack — все строили бизнес на том, что люди находят баги за вознаграждение. Если модель находит тысячи zero-days за недели, экономика выплат рушится. Первые последствия станут видны в ближайшие месяцы — когда компании-партнёры Glasswing начнут массово раскрывать патчи, найденные с помощью Mythos.

Что дальше

Следующая публичная веха — модельная карточка Mythos Preview и первые публикации партнёров Glasswing о найденных и запатченных уязвимостях. По информации от Anthropic, первый отчёт ожидается в течение 60 дней. Одновременно OpenAI планирует расширить Trusted Access for Cyber, а Google, по неофициальным данным, готовит собственный аналог на базе Gemini 3.2.

Главный вопрос, на который ответа пока нет: что делать, когда модель класса Mythos утечёт. Weights не бесконечно защищены, а круг партнёров — уже сотни людей. Рано или поздно модель попадёт в руки, которых Anthropic избегала. Индустрии предстоит решить, хватит ли 60–90 дней эксклюзивного доступа защитников, чтобы успеть залатать самые критичные дыры до этого момента.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Слишком опасно для релиза: Claude Mythos и ответ OpenAI

Что нашёл Mythos

Project Glasswing: избранный доступ вместо публичного релиза

Через неделю отвечает OpenAI

Почему «too dangerous» вернулось

Что это меняет для индустрии

Что дальше

Похожие новости

GPT-5.5 догнал Mythos: оба прошли симуляцию атаки на сеть

Opus 4.7: «не апгрейд, а сайдгрейд» — пользователи Claude в один голос

Anthropic против OpenAI: бой за иммунитет AI-лабораторий в Иллинойсе