Все новости
релизcerebrasglmz.aiopen-source

GLM-4.7 на Cerebras: 1000 токенов в секунду

Z.ai выпустила GLM-4.7 — open-weight модель с производительностью уровня Claude 4.5 и скоростью генерации 1000+ токенов в секунду на Cerebras.

5 мин чтения
GLM-4.7 на Cerebras: 1000 токенов в секунду

Z.ai выпустила GLM-4.7 — open-weight модель нового поколения, которая сочетает интеллект уровня frontier-моделей со скоростью генерации до 1700 токенов в секунду. Модель уже доступна на Cerebras Inference Cloud.

Что нового

Главные изменения

GLM-4.7 представляет значительный шаг вперёд по сравнению с GLM-4.6. Модель демонстрирует качество генерации кода, использования инструментов и многошагового рассуждения на уровне ведущих закрытых моделей — но при этом работает на порядок быстрее.

Ключевое нововведение — interleaved thinking: модель рассуждает перед каждым действием, вызовом инструмента или ответом, а не только в начале. Это делает агентные сценарии более надёжными.

Второе важное изменение — preserved thinking: контекст рассуждений сохраняется между ходами диалога. Агенты больше не теряют нить разговора и не переизобретают планы с нуля.

Производительность

МетрикаGLM-4.6GLM-4.7Изменение
SWE-BenchТоп-1 среди open-weightЛидер
LiveCodeBenchПревосходит DeepSeek-V3.2+улучшение
τ²-BenchТоп-1 среди open-weightЛидер
Скорость (Cerebras)~800 TPS1000-1700 TPS+25-100%

По бенчмаркам реальных задач разработчика GLM-4.7 занимает первое место среди open-weight моделей, опережая DeepSeek-V3.2 на SWE-Bench, τ²-Bench и LiveCodeBench.

Для разработчиков

GLM-4.7 полностью совместима с существующими workflows для GLM-4.6 — используется тот же API. Для большинства команд миграция сводится к изменению имени модели.

Рекомендации:

  • Начинайте с настроек по умолчанию
  • Включите preserved thinking для кодирования и агентных сценариев
  • Используйте гайд по миграции

Цены и доступ

ТарифЦенаЧто включено
Developerот $10Щедрые лимиты, pay-as-you-go
EnterpriseПо запросуВыделенные ресурсы

Модель доступна на Cerebras Cloud. Начальный тариф $10 включает достаточно ресурсов для прототипирования и разработки.

Сравнение с конкурентами

GLM-4.7 на Cerebras показывает примерно 10x лучшее соотношение цена/производительность по сравнению с Claude Sonnet 4.5. По точности модель сопоставима с DeepSeek-V3.2, но работает быстрее благодаря специализированному железу Cerebras.

Скорость генерации 1000+ токенов в секунду недостижима на GPU-архитектурах — это возможно только на wafer-scale движке Cerebras.

Итог

Кому подойдёт: Разработчикам, которым нужна скорость frontier-модели для кодирования и агентных сценариев. Особенно релевантно для real-time приложений и интерактивных coding-ассистентов.

Стоит ли пробовать: Да, особенно если вы используете GLM-4.6 или ищете быструю альтернативу Claude для задач кодирования.

Похожие новости

Листайте вниз

для загрузки следующей статьи