Reddit поймал GPT-5.5 на «утечке» мыслей в Codex — что произошло на самом деле

11 мая разработчик опубликовал на r/LocalLLaMA скриншоты странных фрагментов в Codex, похожих на сжатую внутреннюю речь GPT-5.5. OpenAI молчит. Разбираем, что это значит для доверия к ИИ-агентам.

Представьте: вы открываете Codex, просите GPT-5.5 разобрать функцию, и вместо аккуратного ответа модель выдаёт сжатый, обрывистый текст — будто кто-то заглянул в её внутренний блокнот. Так выглядел пост на r/LocalLLaMA от 11 мая, который за сутки разошёлся по Twitter, X, r/OpenAI и r/singularity. OpenAI пока молчит. А индустрия начинает заново обсуждать вопрос, который думала, что закрыла: что именно мы видим в ответах ИИ-агентов и можно ли им вообще доверять секретный код?

Что увидели разработчики

Скриншоты, которые ходят по соцсетям, показывают странные фрагменты текста внутри Codex CLI: компактные, грамматически рваные, в стиле «short notes» — будто модель писала их для самой себя, а не для пользователя. Авторы постов уверяют: это похоже на raw chain-of-thought, ту самую «внутреннюю речь», которую OpenAI обычно скрывает за summarization-слоем.

Технически логика звучит правдоподобно. Reasoning-модели OpenAI с эпохи o1 действительно генерируют развёрнутый chain-of-thought, который затем компрессируется и подаётся пользователю в виде краткого summary. Полный сырой текст не покидает серверов OpenAI — по официальной позиции, его невозможно «выловить» через API. Но Codex CLI — это уже не чистый API, а агент с собственным UI-слоем, который рендерит статус, планы, результаты инструментов и сообщения об ошибках. Где-то в этой цепочке что-то могло протечь.

Альтернативные объяснения тоже на столе. Это может быть display bug — текст из неправильного буфера вывелся не в то место. Может быть «status text» агента, который пользователи интерпретируют как мысли модели. Может быть новый формат tool traces, который OpenAI начала включать в Codex ради прозрачности. А может быть и реальный баг с reasoning summarization — но даже тогда это не raw CoT, а его частично-сжатая версия.

Почему совпадение слишком красивое

GPT-5.5 официально позиционируется как модель, которая «тратит меньше токенов» и «лучше работает в агентных кодинговых сценариях». На r/LocalLLaMA быстро родилась гипотеза: OpenAI достигла токен-экономии, переведя CoT на сжатый «телеграфный» язык — и теперь его иногда видно из-за бага.

Гипотеза красивая, но доказательств ноль. В системной карточке GPT-5.5 OpenAI отдельно описывает раздел 7.3.1 «CoT Monitorability» — измерение того, насколько внешний монитор может вывести свойства из внутренней речи. Компания не скрывает, что CoT существует и анализируется. Что она не разрешает — это его прямого показа конечному пользователю. И тут разница принципиальная: если в Codex действительно протекает CoT, это нарушает прямые обещания о безопасности агентов.

OpenAI пока не подтвердила и не опровергла. Молчание играет против неё: чем дольше длится пауза, тем больше разработчиков начнут сомневаться в том, какие именно «мысли» Codex отправляет на серверы и какие могут утечь обратно.

Что это значит для бизнеса

Codex давно перестал быть чат-ботом «на полях бизнеса». Он читает исходный код, предлагает патчи, запускает тесты, разбирает файлы и учится привычкам команды. Когда инструмент входит так глубоко в производство, любая неоднозначность по поводу того, что он показывает и хранит, превращается в governance-вопрос.

Опасность не в том, что конкуренты «отреверсят модель по одному странному предложению». Опасность в том, что команды позволяют ИИ-агентам создавать новые информационные поверхности — статус-логи, tool traces, отладочные сообщения — не понимая, кто их видит, где они хранятся, попадают ли они в аналитику и в support-тикеты. Если хоть одна из этих поверхностей просочится наружу с фрагментами внутренних инструкций или ассамптингами о приватной инфраструктуре, проблема перестаёт быть «странным багом UI».

Что должны делать команды прямо сейчас

Не паниковать. Не отключать агентов. Делать скучные операционные вещи, которые большинство стартапов откладывает «на потом»:

Контроль	Что именно
Редакция секретов	Фильтровать ключи, токены, customer IDs до того, как они попадут в контекст агента
Изолированные workspaces	Ограничивать доступ агента к репозиториям scope-токенами вместо личного OAuth
Журналирование	Хранить логи сессий локально, чтобы видеть, что именно отправлялось в облако
Vendor monitoring	Назначить человека, который читает release notes и security advisories OpenAI/Anthropic/Google
Incident playbook	Заранее знать, при каких сигналах остановить роллаут или сузить права агента

Эта простая дисциплина обычно отсутствует ровно до первого инцидента — а потом её внедряют в авральном режиме.

Урок для самих вендоров

Разработчики прощают баги, когда границы понятны. Они не прощают, когда система ведёт себя так, будто скрывает state, а объяснение приходит медленно, расплывчато или вообще не приходит. По мере того как coding-агенты становятся всё более автономными, поставщикам придётся ясно артикулировать: какая часть рассуждения показывается пользователю, какая суммируется, какая сохраняется, а какая не покидает серверы никогда.

OpenAI прошлым летом уже проходила похожую историю с o1, когда исследователи заявляли, что могут «вытащить» CoT через специальные промпты. Тогда компания публично объяснила архитектуру summarization-слоя, и доверие вернулось. На этот раз ждать кажется опаснее: вокруг Codex слишком много пользователей, и каждый день молчания работает против бренда.

Что в итоге

Возможны три исхода. Первый — это UI-баг или ошибка рендеринга tool traces; OpenAI выкатит патч, объяснит причину, история забудется за неделю. Второй — действительно частичный leak summarization-слоя; OpenAI извинится, обновит карточку GPT-5.5 и добавит явное предупреждение в Codex. Третий — раскроется что-то более серьёзное, и тогда индустрия впервые получит реальный кейс «утечки CoT» с публичными последствиями.

В любом из трёх вариантов ИИ-агенты перестали быть игрушкой. Они теперь — часть software supply chain, и относиться к ним нужно так же серьёзно, как к облачным провайдерам, CI-системам и package-реестрам. Что в Codex — баг, фича или утечка — мы узнаем через несколько дней. А вот то, что разработчикам пора писать внутренние правила использования агентов, мы знаем уже сегодня.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Reddit поймал GPT-5.5 на «утечке» мыслей в Codex — что произошло на самом деле

Что увидели разработчики

Почему совпадение слишком красивое

Что это значит для бизнеса

Что должны делать команды прямо сейчас

Урок для самих вендоров

Что в итоге

Похожие новости

Почему AI-агенты OpenAI пытаются взломать собственных хозяев

Сотни AI-агентов написали браузер за неделю. Cursor показал будущее разработки

OpenAI Codex Desktop: мульти-агентный кодинг приходит на Mac