GLM-4.7 на Cerebras: 1000 токенов в секунду

Z.ai выпустила GLM-4.7 — open-weight модель с производительностью уровня Claude 4.5 и скоростью генерации 1000+ токенов в секунду на Cerebras.

Влад Макаровпроверил и опубликовал

12 января 2026 г.

5 мин чтения

GLM-4.7 на Cerebras: 1000 токенов в секунду

Z.ai выпустила GLM-4.7 — open-weight модель нового поколения, которая сочетает интеллект уровня frontier-моделей со скоростью генерации до 1700 токенов в секунду. Модель уже доступна на Cerebras Inference Cloud.

Что нового

Главные изменения

GLM-4.7 представляет значительный шаг вперёд по сравнению с GLM-4.6. Модель демонстрирует качество генерации кода, использования инструментов и многошагового рассуждения на уровне ведущих закрытых моделей — но при этом работает на порядок быстрее.

Ключевое нововведение — interleaved thinking: модель рассуждает перед каждым действием, вызовом инструмента или ответом, а не только в начале. Это делает агентные сценарии более надёжными.

Второе важное изменение — preserved thinking: контекст рассуждений сохраняется между ходами диалога. Агенты больше не теряют нить разговора и не переизобретают планы с нуля.

Производительность

Метрика	GLM-4.6	GLM-4.7	Изменение
SWE-Bench	—	Топ-1 среди open-weight	Лидер
LiveCodeBench	—	Превосходит DeepSeek-V3.2	+улучшение
τ²-Bench	—	Топ-1 среди open-weight	Лидер
Скорость (Cerebras)	~800 TPS	1000-1700 TPS	+25-100%

По бенчмаркам реальных задач разработчика GLM-4.7 занимает первое место среди open-weight моделей, опережая DeepSeek-V3.2 на SWE-Bench, τ²-Bench и LiveCodeBench.

Для разработчиков

GLM-4.7 полностью совместима с существующими workflows для GLM-4.6 — используется тот же API. Для большинства команд миграция сводится к изменению имени модели.

Рекомендации:

Начинайте с настроек по умолчанию
Включите preserved thinking для кодирования и агентных сценариев
Используйте гайд по миграции

Цены и доступ

Тариф	Цена	Что включено
Developer	от $10	Щедрые лимиты, pay-as-you-go
Enterprise	По запросу	Выделенные ресурсы

Модель доступна на Cerebras Cloud. Начальный тариф $10 включает достаточно ресурсов для прототипирования и разработки.

Сравнение с конкурентами

GLM-4.7 на Cerebras показывает примерно 10x лучшее соотношение цена/производительность по сравнению с Claude Sonnet 4.5. По точности модель сопоставима с DeepSeek-V3.2, но работает быстрее благодаря специализированному железу Cerebras.

Скорость генерации 1000+ токенов в секунду недостижима на GPU-архитектурах — это возможно только на wafer-scale движке Cerebras.

Итог

Кому подойдёт: Разработчикам, которым нужна скорость frontier-модели для кодирования и агентных сценариев. Особенно релевантно для real-time приложений и интерактивных coding-ассистентов.

Стоит ли пробовать: Да, особенно если вы используете GLM-4.6 или ищете быструю альтернативу Claude для задач кодирования.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GLM-4.7 на Cerebras: 1000 токенов в секунду

Что нового

Главные изменения

Производительность

Для разработчиков

Цены и доступ

Сравнение с конкурентами

Итог

Похожие новости

GLM-4.7-Flash: китайский ответ на дорогие модели для кодинга

GLM-Image: как китайская модель обошла DALL-E в рендеринге текста

Kling 3.0: 15-секундное видео с нативным аудио и режиссёрский контроль