GLM-4.7 на Cerebras: 1000 токенов в секунду
Z.ai выпустила GLM-4.7 — open-weight модель с производительностью уровня Claude 4.5 и скоростью генерации 1000+ токенов в секунду на Cerebras.

Z.ai выпустила GLM-4.7 — open-weight модель нового поколения, которая сочетает интеллект уровня frontier-моделей со скоростью генерации до 1700 токенов в секунду. Модель уже доступна на Cerebras Inference Cloud.
Что нового
Главные изменения
GLM-4.7 представляет значительный шаг вперёд по сравнению с GLM-4.6. Модель демонстрирует качество генерации кода, использования инструментов и многошагового рассуждения на уровне ведущих закрытых моделей — но при этом работает на порядок быстрее.
Ключевое нововведение — interleaved thinking: модель рассуждает перед каждым действием, вызовом инструмента или ответом, а не только в начале. Это делает агентные сценарии более надёжными.
Второе важное изменение — preserved thinking: контекст рассуждений сохраняется между ходами диалога. Агенты больше не теряют нить разговора и не переизобретают планы с нуля.
Производительность
| Метрика | GLM-4.6 | GLM-4.7 | Изменение |
|---|---|---|---|
| SWE-Bench | — | Топ-1 среди open-weight | Лидер |
| LiveCodeBench | — | Превосходит DeepSeek-V3.2 | +улучшение |
| τ²-Bench | — | Топ-1 среди open-weight | Лидер |
| Скорость (Cerebras) | ~800 TPS | 1000-1700 TPS | +25-100% |
По бенчмаркам реальных задач разработчика GLM-4.7 занимает первое место среди open-weight моделей, опережая DeepSeek-V3.2 на SWE-Bench, τ²-Bench и LiveCodeBench.
Для разработчиков
GLM-4.7 полностью совместима с существующими workflows для GLM-4.6 — используется тот же API. Для большинства команд миграция сводится к изменению имени модели.
Рекомендации:
- Начинайте с настроек по умолчанию
- Включите preserved thinking для кодирования и агентных сценариев
- Используйте гайд по миграции
Цены и доступ
| Тариф | Цена | Что включено |
|---|---|---|
| Developer | от $10 | Щедрые лимиты, pay-as-you-go |
| Enterprise | По запросу | Выделенные ресурсы |
Модель доступна на Cerebras Cloud. Начальный тариф $10 включает достаточно ресурсов для прототипирования и разработки.
Сравнение с конкурентами
GLM-4.7 на Cerebras показывает примерно 10x лучшее соотношение цена/производительность по сравнению с Claude Sonnet 4.5. По точности модель сопоставима с DeepSeek-V3.2, но работает быстрее благодаря специализированному железу Cerebras.
Скорость генерации 1000+ токенов в секунду недостижима на GPU-архитектурах — это возможно только на wafer-scale движке Cerebras.
Итог
Кому подойдёт: Разработчикам, которым нужна скорость frontier-модели для кодирования и агентных сценариев. Особенно релевантно для real-time приложений и интерактивных coding-ассистентов.
Стоит ли пробовать: Да, особенно если вы используете GLM-4.6 или ищете быструю альтернативу Claude для задач кодирования.

