Дешёвые LLM нашли те же уязвимости, что и Mythos от Anthropic

Исследователи из AISLE показали: маленькие open-source модели с 3.6 млрд параметров обнаруживают уязвимости не хуже закрытой фронтирной модели Anthropic.

Когда Anthropic 7 апреля представила Mythos — свою самую мощную модель, способную автономно находить тысячи zero-day уязвимостей в критическом ПО, — индустрия замерла от восхищения. Модель обнаружила 27-летний баг в OpenBSD, 17-летнюю дыру в FreeBSD и написала полноценный эксплойт с удалённым выполнением кода. Но уже через три дня команда AISLE опубликовала исследование, которое ставит под вопрос эксклюзивность этих возможностей.

Что показал эксперимент

Станислав Форт, основатель AISLE, взял конкретные уязвимости из анонса Mythos, изолировал уязвимый код и прогнал его через маленькие и дешёвые open-source модели. Результат оказался неожиданным: восемь из восьми моделей обнаружили флагманский эксплойт FreeBSD NFS (CVE-2026-4747), включая модель с 3.6 миллиарда активных параметров стоимостью $0.11 за миллион токенов. А модель GPT-OSS-120b с 5.1 миллиарда активных параметров воспроизвела полную цепочку 27-летнего бага в OpenBSD SACK — того самого, который Anthropic преподносила как демонстрацию уникального интеллекта Mythos.

На базовом тесте распознавания ложных срабатываний (OWASP) маленькие open-source модели вообще превзошли большинство фронтирных моделей от всех крупных лабораторий. DeepSeek R1 правильно отвечал во всех четырёх попытках, GPT-OSS-20b с 3.6 миллиарда параметров — тоже. При этом Claude Sonnet 4.5 уверенно ошибался, неправильно отслеживая потоки данных в тривиальном Java-коде.

Зубчатая граница

AISLE называет это явление «зубчатой границей» (jagged frontier) — способности в кибербезопасности не масштабируются плавно с размером модели. Рейтинги полностью перетасовываются от задачи к задаче.

Модель	FreeBSD NFS	OpenBSD SACK	OWASP (ложные ++)
GPT-OSS-120b (5.1B акт.)	Найдена	A+ (полная цепочка)	Провал
GPT-OSS-20b (3.6B акт.)	Найдена	C	Успех
Kimi K2 (open-weights)	Найдена	A-	Успех
DeepSeek R1 (open-weights)	Найдена	B-	Успех
Qwen3 32B	Найдена	F («код надёжен»)	Частично

Qwen3 32B выставил идеальную оценку CVSS 9.8 для FreeBSD, а на следующем тесте уверенно заявил, что код OpenBSD «устойчив к подобным сценариям». Стабильной «лучшей модели для кибербезопасности» просто не существует.

Что остаётся за Mythos

Есть важная оговорка: эксперимент AISLE тестировал модели на уже изолированном коде, а не на полном автономном сканировании репозиториев. Настоящее преимущество Mythos — в масштабе. Модель самостоятельно навигирует по сотням тысяч файлов, находит нужные функции и строит сложные эксплойты.

Самый впечатляющий пример — эксплойт FreeBSD, где Mythos решила проблему ограниченного размера полезной нагрузки, разбив её на 15 отдельных RPC-запросов. Когда тот же вопрос задали маленьким моделям, ни одна не пришла к такому же решению, хотя DeepSeek R1 предложил альтернативный и потенциально более практичный подход: минимальная ROP-цепочка для эскалации привилегий с последующим возвратом в пользовательский режим.

Разработка полноценных эксплойтов — JIT heap sprays, обход песочниц браузера через цепочку из четырёх уязвимостей — остаётся территорией фронтирных моделей. Но для оборонительных задач, ради которых и создан Project Glasswing, полная конструкция эксплойтов требуется куда реже, чем надёжное обнаружение и приоритизация.

Что это значит для безопасности open-source

Вывод AISLE парадоксален: если дешёвые модели уже находят те же уязвимости, это одновременно хорошая и плохая новость. Хорошая — потому что тысяча дешёвых «детективов», сканирующих всё подряд, найдёт больше багов, чем один гениальный, но ограниченный в ресурсах. Плохая — потому что доступ к этим возможностям есть у всех, включая злоумышленников.

Anthropic вложила до $100 млн в кредиты и $4 млн прямых пожертвований в безопасность open-source в рамках Project Glasswing. Партнёры проекта — Amazon, Apple, Microsoft, Cisco, CrowdStrike, Palo Alto Networks, Linux Foundation и другие. Но исследование AISLE показывает, что «ров» в AI-кибербезопасности — это не модель, а система вокруг неё: инфраструктура оркестрации, экспертиза в безопасности, отношения с мейнтейнерами и интеграция в рабочие процессы разработки.

Модели готовы. Вопрос в том, готова ли к этому остальная экосистема.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Дешёвые LLM нашли те же уязвимости, что и Mythos от Anthropic

Что показал эксперимент

Зубчатая граница

Что остаётся за Mythos

Что это значит для безопасности open-source

Похожие новости

Как через конфиг-файлы взломали Claude Code

Project Glasswing: Anthropic натравила сверхмощный ИИ на уязвимости мирового ПО

171 эмоция внутри Claude: что нашла команда Anthropic