GPT 5.3 Codex обогнал Opus 4.6 в агентном кодинге

OpenAI выпустила GPT 5.3 Codex — модель-лидер Terminal-Bench 2.0 с 77.3%. Разбираем, где Codex обгоняет Claude Opus 4.6 и где уступает.

Гонка AI-моделей для кодинга вышла на новый виток. OpenAI выпустила GPT 5.3 Codex, который отобрал у Claude Opus 4.6 лидерство на Terminal-Bench 2.0 — самом требовательном бенчмарке для агентного программирования. Но история оказалась сложнее, чем «один победил другого».

Что показывают бенчмарки

5 февраля 2026 года OpenAI представила GPT 5.3 Codex — модель, которая с самого релиза позиционируется как инструмент для профессиональных разработчиков. Главная заявка — лидерство в агентном кодинге, и цифры это подтверждают.

Бенчмарк	GPT 5.3 Codex	Claude Opus 4.6	Разница
Terminal-Bench 2.0	77.3%	—	Лидер
SWE-Bench Pro	56.8%	—	—
SWE-Bench Verified	—	80.8%	Opus лидирует
OSWorld Verified	64.7%	72.7%	Opus +8 п.п.

Terminal-Bench 2.0 измеряет способность модели работать в терминале: выполнять команды, отлаживать код, управлять деплоем. Codex набрал 77.3%, показав скачок с 64.0% у предыдущей версии. Именно здесь он уверенно обходит конкурентов.

Но в OSWorld — тесте на общие компьютерные задачи — Opus 4.6 опережает Codex на 8 процентных пунктов (72.7% против 64.7%). На SWE-Bench Verified, где моделям нужно решать реальные issue с GitHub, Opus тоже впереди с результатом 80.8%.

Скорость против глубины

Чисто по бенчмаркам картина неоднозначная, но в реальной работе разница ощутимее. Codex завершает агентные задачи примерно в два раза быстрее Opus — для быстрого прототипирования это критично.

В практических тестах UI-компонент Codex собрал за 3 минуты 53 секунды, Opus — за 3 минуты ровно. Разница невелика. Но на задачах анализа данных разрыв увеличивается: Codex справился за 1 минуту 35 секунд, Opus потребовал около 8 минут.

OpenAI заявляет, что Codex на 25% быстрее предыдущей версии при меньшем расходе токенов. Модель также участвовала в собственной разработке — отлаживала тренировочный код и управляла инфраструктурой деплоя. Для OpenAI это не просто маркетинговый ход: если модель достаточно хороша, чтобы помогать в собственном создании, это говорит о качестве больше любого бенчмарка.

Пост-бенчмарковая эра

Аналитики всё чаще говорят о «пост-бенчмарковой эре». Разница между топовыми моделями на стандартных тестах настолько мала, что она мало что говорит о реальном пользовательском опыте. Opus 4.6 выигрывает в контексте (до 1 млн токенов), более предсказуемом поведении и широте задач. Codex берёт скоростью и специализацией на терминальных операциях.

Выбор между ними — это выбор стиля работы. Если вы быстро итерируете и деплоите, Codex экономит минуты на каждом цикле. Если работаете с большой кодовой базой, где нужно удерживать контекст десятков файлов, Opus пока надёжнее.

Доступность и ограничения

Codex 5.3 доступен через приложение Codex, CLI, расширения для IDE и веб-интерфейс ChatGPT для платных подписчиков. Главное ограничение — API-доступ пока не открыт, что блокирует корпоративную интеграцию. OpenAI обещает «скоро», но конкретных сроков нет.

Opus 4.6 доступен через API Anthropic, Claude Code и множество интеграций. Здесь преимущество Anthropic очевидно — модель можно встроить в любой рабочий процесс уже сейчас.

Выводы

GPT 5.3 Codex действительно лидирует в агентном кодинге — там, где модели нужно работать в терминале, отлаживать себя и быстро выполнять задачи. Но Opus 4.6 остаётся сильнее в общих задачах, работе с контекстом и OSWorld.

Для индустрии важнее другое: разрыв между лучшими моделями сжимается до минимума. Фронтир в кодинге теперь определяется не тем, кто набрал на 2% больше на бенчмарке, а тем, кто лучше встроен в рабочий процесс разработчика. И здесь битва только начинается.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GPT 5.3 Codex обогнал Opus 4.6 в агентном кодинге

Что показывают бенчмарки

Скорость против глубины

Пост-бенчмарковая эра

Доступность и ограничения

Выводы

Похожие новости

Claude Opus 4.6: миллион токенов, команды агентов и PowerPoint

OpenAI Codex Desktop: мульти-агентный кодинг приходит на Mac

14,5 часов автономного кодинга: Opus 4.6 продолжает экспоненту METR