GLM-4.7-Flash: китайский ответ на дорогие модели для кодинга
Z.ai выпустила GLM-4.7-Flash — open-source модель на 30B параметров с архитектурой MLA. Разбираем характеристики, бенчмарки, цены и сравнение с Claude.

Z.ai (Zhipu AI) выпустила GLM-4.7-Flash — облегчённую версию своей флагманской модели, заточенную под задачи кодинга и агентных систем. Модель уже доступна через API, а веса выложены в открытый доступ под лицензией MIT.
Что нового
GLM-4.7-Flash построена на архитектуре Mixture-of-Experts с 30 миллиардами параметров, но при инференсе активируется лишь около 3 миллиардов. Это первая модель Z.ai, использующая архитектуру MLA (Multi-head Latent Attention) — подход, ранее опробованный в DeepSeek-V2 и показавший хорошие результаты для работы с длинным контекстом.
Главный фокус релиза — кодинг. Модель поддерживает «мышление перед действием» (thinking before acting), сохраняет рассуждения между ходами диалога и позволяет управлять глубиной размышлений для каждого запроса отдельно. На практике это означает, что для простых задач можно отключить расширенное мышление и получить быстрый ответ, а для сложных — включить полноценное рассуждение.
Модель оптимизирована для работы в популярных агентных средах: Claude Code, Cline, Roo Code и Kilo Code. Z.ai продвигает подписку GLM Coding Plan как альтернативу подпискам на Claude — по заявлениям компании, это «модель уровня Claude за 1/7 цены».
Производительность
| Бенчмарк | GLM-4.7-Flash | GLM-4.7 (полная) | Claude Sonnet 4.5 |
|---|---|---|---|
| SWE-bench Verified | 59.2% | 73.8% | 77.2% |
| τ²-Bench | 79.5% | 87.4% | 87.2% |
| Terminal Bench 2.0 | — | 41.0% | 42.8% |
| GPQA Diamond | — | 85.7% | 83.4% |
На бенчмарке SWE-bench Verified, который тестирует способность модели чинить реальные баги в open-source репозиториях, Flash-версия показывает 59.2%. Это заметно ниже полной GLM-4.7 (73.8%), но для облегчённой модели результат солидный.
В локальных тестах разработчики сообщают о скорости 43 токена в секунду на ноутбуке Apple с чипом M5 и 32 ГБ оперативной памяти. Для модели такого класса — впечатляющий показатель.
Для разработчиков
GLM-4.7-Flash поддерживает контекстное окно в 128K токенов и работает с текстом, изображениями, аудио и видео на входе и выходе. Модель совместима с Hugging Face и vLLM из коробки, а для владельцев серверов на Huawei Ascend NPU есть официальная поддержка.
Технические характеристики:
- Параметры: 30B (MoE), 3B активных
- Контекст: 128K токенов
- Архитектура: MLA (Multi-head Latent Attention)
- Лицензия: MIT
- Квантизация: поддерживается
Веса доступны на HuggingFace и ModelScope. Для деплоя можно использовать vLLM или SGLang.
Цены
| Тариф | Input | Output | Особенности |
|---|---|---|---|
| API (базовый) | $0.07/1M | $0.40/1M | 1 concurrent request |
| FlashX (быстрый) | выше | выше | Повышенная скорость |
| GLM Coding Plan | $3/мес | — | Безлимит в Claude Code, Cline и др. |
Цены агрессивные: входные токены обходятся в 7 центов за миллион, выходные — 40 центов. Для сравнения, Claude 3.5 Sonnet стоит $3 за миллион входных и $15 за миллион выходных токенов.
Сравнение с предыдущей версией
Flash-версия заметно уступает полной GLM-4.7 на сложных бенчмарках вроде SWE-bench, но компенсирует это скоростью и ценой. Архитектура MLA впервые появляется в линейке GLM — это шаг к более эффективной обработке длинного контекста, что особенно важно для агентных сценариев с многоходовыми диалогами.
По сравнению с GLM-4.5-Flash новая версия получила улучшенное «мышление» и лучшую интеграцию с инструментами для разработчиков. Z.ai явно целит в нишу локального кодинг-ассистента — рынок, где сейчас доминируют облачные решения от Anthropic и OpenAI.
Итог
Кому подойдёт: разработчикам, которые хотят запускать модель локально или ищут дешёвую альтернативу Claude для агентных задач.
Стоит ли пробовать: если вы уже используете Claude Code или Cline — да, GLM Coding Plan за $3 в месяц выглядит интересно. Для критически важных задач полная GLM-4.7 или Claude по-прежнему предпочтительнее.
Официальный анонс: z.ai/blog/glm-4.7


