OpenAI впервые ушла от Nvidia — Codex-Spark работает на чипах Cerebras
OpenAI выпустила GPT-5.3-Codex-Spark — первую модель на чипах Cerebras. Более 1000 токенов в секунду, research preview для ChatGPT Pro.

Тысяча токенов в секунду. Не в теории, не на бумаге — в реальном продакшене, в руках разработчиков. Вчера OpenAI выпустила GPT-5.3-Codex-Spark, и главная новость здесь не в самой модели, а в том, на чём она работает. Впервые за всю историю компании производственная модель OpenAI запущена не на железе Nvidia.
Зачем OpenAI понадобился Cerebras
Для понимания контекста: самые быстрые модели OpenAI на GPU Nvidia выдают 147–167 токенов в секунду. GPT-4o mini — и вовсе около 52. Codex-Spark на чипах Cerebras генерирует более 1000 токенов в секунду. Разница не в процентах — в разах.
Reuters сообщает, что OpenAI была недовольна скоростью некоторых чипов Nvidia для задач инференса. Это именно тот тип нагрузки, под который Cerebras проектировала свою архитектуру. Wafer Scale Engine 3 — чип размером с обеденную тарелку, набитый сверхбыстрой SRAM-памятью. Эта память примерно в 1000 раз быстрее HBM4, которая будет стоять в будущих GPU Nvidia серии Rubin.
В январе OpenAI подписала контракт с Cerebras на $10 млрд для развёртывания до 750 мегаватт вычислительных мощностей поэтапно до 2028 года. Codex-Spark — первый результат этого партнёрства.
Что умеет Codex-Spark
Модель позиционируется как облегчённая версия GPT-5.3-Codex, оптимизированная для интерактивного кодинга. Если полноценный GPT-5.3-Codex берёт на себя тяжёлые агентные задачи — многошаговую отладку, рефакторинг, архитектурные решения — то Spark заточен под скорость: точечные правки, подстройка логики, быстрые итерации с мгновенным результатом.
На бенчмарке Terminal-Bench 2.0 Codex-Spark показал 77,3% точности — заметный скачок по сравнению с 64% у GPT-5.2-Codex. При этом модель превосходит GPT-5.1-Codex-Mini по качеству ответов, но работает кратно быстрее старших моделей.
| Параметр | Codex-Spark | GPT-4o | GPT-5.3-Codex |
|---|---|---|---|
| Скорость (ток/с) | 1000+ | ~147 | ≈200 |
| Terminal-Bench 2.0 | 77,3% | — | выше |
| Железо | Cerebras WSE-3 | Nvidia | Nvidia |
| Назначение | Интерактивный кодинг | Общие задачи | Агентный кодинг |
Техническая деталь: для Codex-Spark по умолчанию включён WebSocket-путь доставки ответов — скоро он станет дефолтным для всех моделей OpenAI.
Что это значит для рынка
Сачин Катти, глава подразделения Industrial Compute в OpenAI, подчеркнул, что Nvidia остаётся «фундаментальным» партнёром для обучения и основного инференса. Cerebras — расширение экосистемы, а не замена. Но сам факт диверсификации говорит о многом.
Церебрас давно демонстрировала впечатляющие цифры: 2100 токенов в секунду на Llama 3.1 70B, 3000 токенов в секунду на gpt-oss-120B. То, что Codex-Spark выдаёт «всего» 1000+, скорее отражает размер и сложность модели, а не ограничения железа.
«Нас больше всего вдохновляет возможность вместе с OpenAI и сообществом разработчиков обнаружить, что становится возможным при быстром инференсе — новые паттерны взаимодействия, новые сценарии использования и принципиально другой опыт работы с моделями.» — Эндрю Фелдман, CEO Cerebras
Для разработчиков это означает появление нового класса инструментов: модели, которые реагируют настолько быстро, что стирают границу между «написать запрос и ждать ответ» и «редактировать код в реальном времени». Codex-Spark доступен как research preview для подписчиков ChatGPT Pro — через Codex-приложение, CLI и расширение VS Code. API-доступ пока ограничен избранными партнёрами.
Выводы
Главное событие — не скорость модели, а стратегический сдвиг. OpenAI показала, что зависимость от одного поставщика чипов больше не является нормой. Cerebras получает валидацию от крупнейшего заказчика в индустрии, а разработчики — первый реальный продукт, где архитектура вейферного масштаба работает в продакшене.
Codex-Spark пока в research preview, и доступен не всем. Но направление задано: скорость инференса становится отдельной осью конкуренции, и Nvidia здесь уже не одинока.


