GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
z.aiglmopen-sourceкодингрелиз

GLM-4.7-Flash: китайский ответ на дорогие модели для кодинга

Z.ai выпустила GLM-4.7-Flash — open-source модель на 30B параметров с архитектурой MLA. Разбираем характеристики, бенчмарки, цены и сравнение с Claude.

Влад МакаровВлад Макаровпроверил и опубликовал
6 мин чтения
GLM-4.7-Flash: китайский ответ на дорогие модели для кодинга

Z.ai (Zhipu AI) выпустила GLM-4.7-Flash — облегчённую версию своей флагманской модели, заточенную под задачи кодинга и агентных систем. Модель уже доступна через API, а веса выложены в открытый доступ под лицензией MIT.

Что нового

GLM-4.7-Flash построена на архитектуре Mixture-of-Experts с 30 миллиардами параметров, но при инференсе активируется лишь около 3 миллиардов. Это первая модель Z.ai, использующая архитектуру MLA (Multi-head Latent Attention) — подход, ранее опробованный в DeepSeek-V2 и показавший хорошие результаты для работы с длинным контекстом.

Главный фокус релиза — кодинг. Модель поддерживает «мышление перед действием» (thinking before acting), сохраняет рассуждения между ходами диалога и позволяет управлять глубиной размышлений для каждого запроса отдельно. На практике это означает, что для простых задач можно отключить расширенное мышление и получить быстрый ответ, а для сложных — включить полноценное рассуждение.

Модель оптимизирована для работы в популярных агентных средах: Claude Code, Cline, Roo Code и Kilo Code. Z.ai продвигает подписку GLM Coding Plan как альтернативу подпискам на Claude — по заявлениям компании, это «модель уровня Claude за 1/7 цены».

Производительность

БенчмаркGLM-4.7-FlashGLM-4.7 (полная)Claude Sonnet 4.5
SWE-bench Verified59.2%73.8%77.2%
τ²-Bench79.5%87.4%87.2%
Terminal Bench 2.041.0%42.8%
GPQA Diamond85.7%83.4%

На бенчмарке SWE-bench Verified, который тестирует способность модели чинить реальные баги в open-source репозиториях, Flash-версия показывает 59.2%. Это заметно ниже полной GLM-4.7 (73.8%), но для облегчённой модели результат солидный.

В локальных тестах разработчики сообщают о скорости 43 токена в секунду на ноутбуке Apple с чипом M5 и 32 ГБ оперативной памяти. Для модели такого класса — впечатляющий показатель.

Для разработчиков

GLM-4.7-Flash поддерживает контекстное окно в 128K токенов и работает с текстом, изображениями, аудио и видео на входе и выходе. Модель совместима с Hugging Face и vLLM из коробки, а для владельцев серверов на Huawei Ascend NPU есть официальная поддержка.

Технические характеристики:

  • Параметры: 30B (MoE), 3B активных
  • Контекст: 128K токенов
  • Архитектура: MLA (Multi-head Latent Attention)
  • Лицензия: MIT
  • Квантизация: поддерживается

Веса доступны на HuggingFace и ModelScope. Для деплоя можно использовать vLLM или SGLang.

Цены

ТарифInputOutputОсобенности
API (базовый)$0.07/1M$0.40/1M1 concurrent request
FlashX (быстрый)вышевышеПовышенная скорость
GLM Coding Plan$3/месБезлимит в Claude Code, Cline и др.

Цены агрессивные: входные токены обходятся в 7 центов за миллион, выходные — 40 центов. Для сравнения, Claude 3.5 Sonnet стоит $3 за миллион входных и $15 за миллион выходных токенов.

Сравнение с предыдущей версией

Flash-версия заметно уступает полной GLM-4.7 на сложных бенчмарках вроде SWE-bench, но компенсирует это скоростью и ценой. Архитектура MLA впервые появляется в линейке GLM — это шаг к более эффективной обработке длинного контекста, что особенно важно для агентных сценариев с многоходовыми диалогами.

По сравнению с GLM-4.5-Flash новая версия получила улучшенное «мышление» и лучшую интеграцию с инструментами для разработчиков. Z.ai явно целит в нишу локального кодинг-ассистента — рынок, где сейчас доминируют облачные решения от Anthropic и OpenAI.

Итог

Кому подойдёт: разработчикам, которые хотят запускать модель локально или ищут дешёвую альтернативу Claude для агентных задач.

Стоит ли пробовать: если вы уже используете Claude Code или Cline — да, GLM Coding Plan за $3 в месяц выглядит интересно. Для критически важных задач полная GLM-4.7 или Claude по-прежнему предпочтительнее.


Официальный анонс: z.ai/blog/glm-4.7

Похожие новости

Листайте вниз

для загрузки следующей статьи