OpenAI впервые ушла от Nvidia — Codex-Spark работает на чипах Cerebras

OpenAI выпустила GPT-5.3-Codex-Spark — первую модель на чипах Cerebras. Более 1000 токенов в секунду, research preview для ChatGPT Pro.

Тысяча токенов в секунду. Не в теории, не на бумаге — в реальном продакшене, в руках разработчиков. Вчера OpenAI выпустила GPT-5.3-Codex-Spark, и главная новость здесь не в самой модели, а в том, на чём она работает. Впервые за всю историю компании производственная модель OpenAI запущена не на железе Nvidia.

Зачем OpenAI понадобился Cerebras

Для понимания контекста: самые быстрые модели OpenAI на GPU Nvidia выдают 147–167 токенов в секунду. GPT-4o mini — и вовсе около 52. Codex-Spark на чипах Cerebras генерирует более 1000 токенов в секунду. Разница не в процентах — в разах.

Reuters сообщает, что OpenAI была недовольна скоростью некоторых чипов Nvidia для задач инференса. Это именно тот тип нагрузки, под который Cerebras проектировала свою архитектуру. Wafer Scale Engine 3 — чип размером с обеденную тарелку, набитый сверхбыстрой SRAM-памятью. Эта память примерно в 1000 раз быстрее HBM4, которая будет стоять в будущих GPU Nvidia серии Rubin.

В январе OpenAI подписала контракт с Cerebras на $10 млрд для развёртывания до 750 мегаватт вычислительных мощностей поэтапно до 2028 года. Codex-Spark — первый результат этого партнёрства.

Что умеет Codex-Spark

Модель позиционируется как облегчённая версия GPT-5.3-Codex, оптимизированная для интерактивного кодинга. Если полноценный GPT-5.3-Codex берёт на себя тяжёлые агентные задачи — многошаговую отладку, рефакторинг, архитектурные решения — то Spark заточен под скорость: точечные правки, подстройка логики, быстрые итерации с мгновенным результатом.

На бенчмарке Terminal-Bench 2.0 Codex-Spark показал 77,3% точности — заметный скачок по сравнению с 64% у GPT-5.2-Codex. При этом модель превосходит GPT-5.1-Codex-Mini по качеству ответов, но работает кратно быстрее старших моделей.

Параметр	Codex-Spark	GPT-4o	GPT-5.3-Codex
Скорость (ток/с)	1000+	~147	≈200
Terminal-Bench 2.0	77,3%	—	выше
Железо	Cerebras WSE-3	Nvidia	Nvidia
Назначение	Интерактивный кодинг	Общие задачи	Агентный кодинг

Техническая деталь: для Codex-Spark по умолчанию включён WebSocket-путь доставки ответов — скоро он станет дефолтным для всех моделей OpenAI.

Что это значит для рынка

Сачин Катти, глава подразделения Industrial Compute в OpenAI, подчеркнул, что Nvidia остаётся «фундаментальным» партнёром для обучения и основного инференса. Cerebras — расширение экосистемы, а не замена. Но сам факт диверсификации говорит о многом.

Церебрас давно демонстрировала впечатляющие цифры: 2100 токенов в секунду на Llama 3.1 70B, 3000 токенов в секунду на gpt-oss-120B. То, что Codex-Spark выдаёт «всего» 1000+, скорее отражает размер и сложность модели, а не ограничения железа.

«Нас больше всего вдохновляет возможность вместе с OpenAI и сообществом разработчиков обнаружить, что становится возможным при быстром инференсе — новые паттерны взаимодействия, новые сценарии использования и принципиально другой опыт работы с моделями.» — Эндрю Фелдман, CEO Cerebras

Для разработчиков это означает появление нового класса инструментов: модели, которые реагируют настолько быстро, что стирают границу между «написать запрос и ждать ответ» и «редактировать код в реальном времени». Codex-Spark доступен как research preview для подписчиков ChatGPT Pro — через Codex-приложение, CLI и расширение VS Code. API-доступ пока ограничен избранными партнёрами.

Выводы

Главное событие — не скорость модели, а стратегический сдвиг. OpenAI показала, что зависимость от одного поставщика чипов больше не является нормой. Cerebras получает валидацию от крупнейшего заказчика в индустрии, а разработчики — первый реальный продукт, где архитектура вейферного масштаба работает в продакшене.

Codex-Spark пока в research preview, и доступен не всем. Но направление задано: скорость инференса становится отдельной осью конкуренции, и Nvidia здесь уже не одинока.