GPT 5.3 Codex обогнал Opus 4.6 в агентном кодинге
OpenAI выпустила GPT 5.3 Codex — модель-лидер Terminal-Bench 2.0 с 77.3%. Разбираем, где Codex обгоняет Claude Opus 4.6 и где уступает.

Гонка AI-моделей для кодинга вышла на новый виток. OpenAI выпустила GPT 5.3 Codex, который отобрал у Claude Opus 4.6 лидерство на Terminal-Bench 2.0 — самом требовательном бенчмарке для агентного программирования. Но история оказалась сложнее, чем «один победил другого».
Что показывают бенчмарки
5 февраля 2026 года OpenAI представила GPT 5.3 Codex — модель, которая с самого релиза позиционируется как инструмент для профессиональных разработчиков. Главная заявка — лидерство в агентном кодинге, и цифры это подтверждают.
| Бенчмарк | GPT 5.3 Codex | Claude Opus 4.6 | Разница |
|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | — | Лидер |
| SWE-Bench Pro | 56.8% | — | — |
| SWE-Bench Verified | — | 80.8% | Opus лидирует |
| OSWorld Verified | 64.7% | 72.7% | Opus +8 п.п. |
Terminal-Bench 2.0 измеряет способность модели работать в терминале: выполнять команды, отлаживать код, управлять деплоем. Codex набрал 77.3%, показав скачок с 64.0% у предыдущей версии. Именно здесь он уверенно обходит конкурентов.
Но в OSWorld — тесте на общие компьютерные задачи — Opus 4.6 опережает Codex на 8 процентных пунктов (72.7% против 64.7%). На SWE-Bench Verified, где моделям нужно решать реальные issue с GitHub, Opus тоже впереди с результатом 80.8%.
Скорость против глубины
Чисто по бенчмаркам картина неоднозначная, но в реальной работе разница ощутимее. Codex завершает агентные задачи примерно в два раза быстрее Opus — для быстрого прототипирования это критично.
В практических тестах UI-компонент Codex собрал за 3 минуты 53 секунды, Opus — за 3 минуты ровно. Разница невелика. Но на задачах анализа данных разрыв увеличивается: Codex справился за 1 минуту 35 секунд, Opus потребовал около 8 минут.
OpenAI заявляет, что Codex на 25% быстрее предыдущей версии при меньшем расходе токенов. Модель также участвовала в собственной разработке — отлаживала тренировочный код и управляла инфраструктурой деплоя. Для OpenAI это не просто маркетинговый ход: если модель достаточно хороша, чтобы помогать в собственном создании, это говорит о качестве больше любого бенчмарка.
Пост-бенчмарковая эра
Аналитики всё чаще говорят о «пост-бенчмарковой эре». Разница между топовыми моделями на стандартных тестах настолько мала, что она мало что говорит о реальном пользовательском опыте. Opus 4.6 выигрывает в контексте (до 1 млн токенов), более предсказуемом поведении и широте задач. Codex берёт скоростью и специализацией на терминальных операциях.
Выбор между ними — это выбор стиля работы. Если вы быстро итерируете и деплоите, Codex экономит минуты на каждом цикле. Если работаете с большой кодовой базой, где нужно удерживать контекст десятков файлов, Opus пока надёжнее.
Доступность и ограничения
Codex 5.3 доступен через приложение Codex, CLI, расширения для IDE и веб-интерфейс ChatGPT для платных подписчиков. Главное ограничение — API-доступ пока не открыт, что блокирует корпоративную интеграцию. OpenAI обещает «скоро», но конкретных сроков нет.
Opus 4.6 доступен через API Anthropic, Claude Code и множество интеграций. Здесь преимущество Anthropic очевидно — модель можно встроить в любой рабочий процесс уже сейчас.
Выводы
GPT 5.3 Codex действительно лидирует в агентном кодинге — там, где модели нужно работать в терминале, отлаживать себя и быстро выполнять задачи. Но Opus 4.6 остаётся сильнее в общих задачах, работе с контекстом и OSWorld.
Для индустрии важнее другое: разрыв между лучшими моделями сжимается до минимума. Фронтир в кодинге теперь определяется не тем, кто набрал на 2% больше на бенчмарке, а тем, кто лучше встроен в рабочий процесс разработчика. И здесь битва только начинается.


