GPT-5.3-Codex: первая модель OpenAI, которая дебажила саму себя

OpenAI выпустила GPT-5.3-Codex — агентную модель для кодинга, которая участвовала в собственной отладке и стала первой с высоким уровнем кибербезопасности.

«GPT-5.3-Codex — первая модель, которая была ключевой в создании самой себя.» Этой фразой OpenAI открыла блог-пост 5 февраля, и это не маркетинговое преувеличение. Ранние версии модели реально дебажили собственный тренинг, диагностировали результаты тестов и управляли деплоем. Исследователи OpenAI признаются, что их работа за последние два месяца изменилась фундаментально.

Что нового

GPT-5.3-Codex объединяет в одной модели то, что раньше было разделено: фронтирный кодинг GPT-5.2-Codex и рассуждения GPT-5.2. При этом модель на 25% быстрее предшественника. Она умеет не просто писать и ревьюить код — она выполняет практически всё, что делает разработчик за компьютером: дебаг, деплой, мониторинг, написание спецификаций, анализ данных и даже создание презентаций.

Главное архитектурное изменение — интерактивность. Раньше Codex работал по принципу «дал задачу — получил результат». Теперь модель регулярно обновляет прогресс, отвечает на вопросы в процессе работы и реагирует на фидбек без потери контекста. Это ближе к работе с живым коллегой, чем с инструментом.

Бенчмарки

Бенчмарк	GPT-5.3-Codex	GPT-5.2-Codex	GPT-5.2
SWE-Bench Pro	56.8%	56.4%	55.6%
Terminal-Bench 2.0	77.3%	64.0%	62.2%
OSWorld-Verified	64.7%	38.2%	37.9%
CTF Cybersecurity	77.6%	67.4%	67.7%
SWE-Lancer IC Diamond	81.4%	76.0%	74.6%

Terminal-Bench 2.0 — это реальные задачи системного администрирования, не синтетика. Скачок с 64% до 77.3% означает, что модель уверенно справляется с терминальными операциями, которые нужны агенту для самостоятельной работы. OSWorld-Verified показывает ещё более впечатляющий рост: с 38% до 65% — модель научилась работать с визуальным интерфейсом рабочего стола почти на уровне человека (72%).

Самодебаг: как модель строила себя

Команда исследователей использовала ранние версии GPT-5.3-Codex для мониторинга и отладки собственного тренинга. Модель отслеживала паттерны в ходе обучения, проводила глубокий анализ качества взаимодействий и предлагала исправления. Для инженерной команды она оптимизировала inference-стек, находила баги в рендеринге контекста и устраняла причины низкого попадания в кеш.

Один из исследователей попросил модель оценить, насколько больше работы GPT-5.3-Codex выполняет за один ход. Модель самостоятельно придумала несколько regex-классификаторов для оценки частоты уточняющих вопросов, положительных и отрицательных реакций пользователей, прогресса в задаче — и прогнала их по всем логам сессий, выдав отчёт за три минуты.

Это не теоретическая возможность. Команда по работе с данными строила новые пайплайны визуализации совместно с моделью, а та суммаризировала ключевые инсайты по тысячам точек данных быстрее любого дашборда.

Кибербезопасность: первый «High capability»

GPT-5.3-Codex — первая модель, которую OpenAI классифицировала как High capability для задач кибербезопасности по своему Preparedness Framework. Это также первая модель, которую напрямую обучали находить уязвимости в коде.

На CTF-задачах (Capture The Flag) модель набирает 77.6% — на 10 процентных пунктов выше GPT-5.2-Codex. OpenAI подчёркивает, что нет однозначных доказательств того, что модель может автоматизировать кибератаки от начала до конца, но компания применяет превентивный подход: safety-тренировка, автоматический мониторинг, усиленные пайплайны обнаружения угроз.

Параллельно OpenAI расширяет бета-тестирование Aardvark — security-агента, и партнёрство с мейнтейнерами open-source проектов. Исследователь безопасности уже использовал Codex для обнаружения уязвимостей в Next.js, раскрытых на прошлой неделе. Компания также выделяет $10 млн API-кредитов для ускорения киберзащиты в open-source и критической инфраструктуре.

Доступность и цены

Модель доступна подписчикам ChatGPT — в приложении Codex, CLI, IDE-расширении и веб-версии. API-доступ OpenAI обещает открыть в ближайшее время. Модель обучена и работает на NVIDIA GB200 NVL72.

Что это значит

GPT-5.3-Codex — шаг от кодинг-агента к универсальному рабочему инструменту. Факт самодебага во время тренировки — не PR-ход, а реальный индикатор рекурсивного улучшения. Когда модель ускоряет собственную разработку, темп прогресса перестаёт быть линейным.

Для разработчиков это значит, что Codex перестаёт быть «автокомплитом на стероидах». Теперь это коллега, который может вести длинные сессии работы, переключаться между задачами и взаимодействовать в реальном времени. Для безопасников — появление модели с High capability по кибербезопасности одновременно открывает новые инструменты защиты и поднимает вопросы о dual-use.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GPT-5.3-Codex: первая модель OpenAI, которая дебажила саму себя

Что нового

Бенчмарки

Самодебаг: как модель строила себя

Кибербезопасность: первый «High capability»

Доступность и цены

Что это значит

Похожие новости

Codex научился кликать мышкой: OpenAI превращает его в суперприложение

Сотни AI-агентов написали браузер за неделю. Cursor показал будущее разработки

Почему AI-агенты OpenAI пытаются взломать собственных хозяев