GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
openaigptcodexanthropicopusкодингбенчмарки

GPT 5.3 Codex обогнал Opus 4.6 в агентном кодинге

OpenAI выпустила GPT 5.3 Codex — модель-лидер Terminal-Bench 2.0 с 77.3%. Разбираем, где Codex обгоняет Claude Opus 4.6 и где уступает.

Влад МакаровВлад Макаровпроверил и опубликовал
8 мин чтения
GPT 5.3 Codex обогнал Opus 4.6 в агентном кодинге

Гонка AI-моделей для кодинга вышла на новый виток. OpenAI выпустила GPT 5.3 Codex, который отобрал у Claude Opus 4.6 лидерство на Terminal-Bench 2.0 — самом требовательном бенчмарке для агентного программирования. Но история оказалась сложнее, чем «один победил другого».

Что показывают бенчмарки

5 февраля 2026 года OpenAI представила GPT 5.3 Codex — модель, которая с самого релиза позиционируется как инструмент для профессиональных разработчиков. Главная заявка — лидерство в агентном кодинге, и цифры это подтверждают.

БенчмаркGPT 5.3 CodexClaude Opus 4.6Разница
Terminal-Bench 2.077.3%Лидер
SWE-Bench Pro56.8%
SWE-Bench Verified80.8%Opus лидирует
OSWorld Verified64.7%72.7%Opus +8 п.п.

Terminal-Bench 2.0 измеряет способность модели работать в терминале: выполнять команды, отлаживать код, управлять деплоем. Codex набрал 77.3%, показав скачок с 64.0% у предыдущей версии. Именно здесь он уверенно обходит конкурентов.

Но в OSWorld — тесте на общие компьютерные задачи — Opus 4.6 опережает Codex на 8 процентных пунктов (72.7% против 64.7%). На SWE-Bench Verified, где моделям нужно решать реальные issue с GitHub, Opus тоже впереди с результатом 80.8%.

Скорость против глубины

Чисто по бенчмаркам картина неоднозначная, но в реальной работе разница ощутимее. Codex завершает агентные задачи примерно в два раза быстрее Opus — для быстрого прототипирования это критично.

В практических тестах UI-компонент Codex собрал за 3 минуты 53 секунды, Opus — за 3 минуты ровно. Разница невелика. Но на задачах анализа данных разрыв увеличивается: Codex справился за 1 минуту 35 секунд, Opus потребовал около 8 минут.

OpenAI заявляет, что Codex на 25% быстрее предыдущей версии при меньшем расходе токенов. Модель также участвовала в собственной разработке — отлаживала тренировочный код и управляла инфраструктурой деплоя. Для OpenAI это не просто маркетинговый ход: если модель достаточно хороша, чтобы помогать в собственном создании, это говорит о качестве больше любого бенчмарка.

Пост-бенчмарковая эра

Аналитики всё чаще говорят о «пост-бенчмарковой эре». Разница между топовыми моделями на стандартных тестах настолько мала, что она мало что говорит о реальном пользовательском опыте. Opus 4.6 выигрывает в контексте (до 1 млн токенов), более предсказуемом поведении и широте задач. Codex берёт скоростью и специализацией на терминальных операциях.

Выбор между ними — это выбор стиля работы. Если вы быстро итерируете и деплоите, Codex экономит минуты на каждом цикле. Если работаете с большой кодовой базой, где нужно удерживать контекст десятков файлов, Opus пока надёжнее.

Доступность и ограничения

Codex 5.3 доступен через приложение Codex, CLI, расширения для IDE и веб-интерфейс ChatGPT для платных подписчиков. Главное ограничение — API-доступ пока не открыт, что блокирует корпоративную интеграцию. OpenAI обещает «скоро», но конкретных сроков нет.

Opus 4.6 доступен через API Anthropic, Claude Code и множество интеграций. Здесь преимущество Anthropic очевидно — модель можно встроить в любой рабочий процесс уже сейчас.

Выводы

GPT 5.3 Codex действительно лидирует в агентном кодинге — там, где модели нужно работать в терминале, отлаживать себя и быстро выполнять задачи. Но Opus 4.6 остаётся сильнее в общих задачах, работе с контекстом и OSWorld.

Для индустрии важнее другое: разрыв между лучшими моделями сжимается до минимума. Фронтир в кодинге теперь определяется не тем, кто набрал на 2% больше на бенчмарке, а тем, кто лучше встроен в рабочий процесс разработчика. И здесь битва только начинается.

Похожие новости

Листайте вниз

для загрузки следующей статьи