GLM-4.7-Flash: китайский ответ на дорогие модели для кодинга

Z.ai выпустила GLM-4.7-Flash — open-source модель на 30B параметров с архитектурой MLA. Разбираем характеристики, бенчмарки, цены и сравнение с Claude.

Z.ai (Zhipu AI) выпустила GLM-4.7-Flash — облегчённую версию своей флагманской модели, заточенную под задачи кодинга и агентных систем. Модель уже доступна через API, а веса выложены в открытый доступ под лицензией MIT.

Что нового

GLM-4.7-Flash построена на архитектуре Mixture-of-Experts с 30 миллиардами параметров, но при инференсе активируется лишь около 3 миллиардов. Это первая модель Z.ai, использующая архитектуру MLA (Multi-head Latent Attention) — подход, ранее опробованный в DeepSeek-V2 и показавший хорошие результаты для работы с длинным контекстом.

Главный фокус релиза — кодинг. Модель поддерживает «мышление перед действием» (thinking before acting), сохраняет рассуждения между ходами диалога и позволяет управлять глубиной размышлений для каждого запроса отдельно. На практике это означает, что для простых задач можно отключить расширенное мышление и получить быстрый ответ, а для сложных — включить полноценное рассуждение.

Модель оптимизирована для работы в популярных агентных средах: Claude Code, Cline, Roo Code и Kilo Code. Z.ai продвигает подписку GLM Coding Plan как альтернативу подпискам на Claude — по заявлениям компании, это «модель уровня Claude за 1/7 цены».

Производительность

Бенчмарк	GLM-4.7-Flash	GLM-4.7 (полная)	Claude Sonnet 4.5
SWE-bench Verified	59.2%	73.8%	77.2%
τ²-Bench	79.5%	87.4%	87.2%
Terminal Bench 2.0	—	41.0%	42.8%
GPQA Diamond	—	85.7%	83.4%

На бенчмарке SWE-bench Verified, который тестирует способность модели чинить реальные баги в open-source репозиториях, Flash-версия показывает 59.2%. Это заметно ниже полной GLM-4.7 (73.8%), но для облегчённой модели результат солидный.

В локальных тестах разработчики сообщают о скорости 43 токена в секунду на ноутбуке Apple с чипом M5 и 32 ГБ оперативной памяти. Для модели такого класса — впечатляющий показатель.

Для разработчиков

GLM-4.7-Flash поддерживает контекстное окно в 128K токенов и работает с текстом, изображениями, аудио и видео на входе и выходе. Модель совместима с Hugging Face и vLLM из коробки, а для владельцев серверов на Huawei Ascend NPU есть официальная поддержка.

Технические характеристики:

Параметры: 30B (MoE), 3B активных
Контекст: 128K токенов
Архитектура: MLA (Multi-head Latent Attention)
Лицензия: MIT
Квантизация: поддерживается

Веса доступны на HuggingFace и ModelScope. Для деплоя можно использовать vLLM или SGLang.

Цены

Тариф	Input	Output	Особенности
API (базовый)	$0.07/1M	$0.40/1M	1 concurrent request
FlashX (быстрый)	выше	выше	Повышенная скорость
GLM Coding Plan	$3/мес	—	Безлимит в Claude Code, Cline и др.

Цены агрессивные: входные токены обходятся в 7 центов за миллион, выходные — 40 центов. Для сравнения, Claude 3.5 Sonnet стоит $3 за миллион входных и $15 за миллион выходных токенов.

Сравнение с предыдущей версией

Flash-версия заметно уступает полной GLM-4.7 на сложных бенчмарках вроде SWE-bench, но компенсирует это скоростью и ценой. Архитектура MLA впервые появляется в линейке GLM — это шаг к более эффективной обработке длинного контекста, что особенно важно для агентных сценариев с многоходовыми диалогами.

По сравнению с GLM-4.5-Flash новая версия получила улучшенное «мышление» и лучшую интеграцию с инструментами для разработчиков. Z.ai явно целит в нишу локального кодинг-ассистента — рынок, где сейчас доминируют облачные решения от Anthropic и OpenAI.

Итог

Кому подойдёт: разработчикам, которые хотят запускать модель локально или ищут дешёвую альтернативу Claude для агентных задач.

Стоит ли пробовать: если вы уже используете Claude Code или Cline — да, GLM Coding Plan за $3 в месяц выглядит интересно. Для критически важных задач полная GLM-4.7 или Claude по-прежнему предпочтительнее.

Официальный анонс: z.ai/blog/glm-4.7

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GLM-4.7-Flash: китайский ответ на дорогие модели для кодинга

Что нового

Производительность

Для разработчиков

Цены

Сравнение с предыдущей версией

Итог

Похожие новости

GLM-4.7 на Cerebras: 1000 токенов в секунду

Kimi K2.5: китайская open-source модель обошла GPT-5.2 и Claude Opus в кодинге

GLM-Image: как китайская модель обошла DALL-E в рендеринге текста