Z.ai открыто признала дефицит GPU — и это меняет правила

Китайская AI-лаборатория Zhipu публично заявила о нехватке вычислительных мощностей, ограничив доступ к GLM-5. Почему это важно для всей индустрии.

«Due to limited compute capacity, we're rolling out GLM-5 to Coding Plan users gradually». Это не утечка, не слух и не анонимный инсайд. Это официальный текст на странице релиза GLM-5 — новейшей модели Z.ai, опубликованный 12 февраля 2026 года. Китайская AI-лаборатория прямым текстом признала: GPU не хватает. И вместо того чтобы спрятать проблему, сделала из неё стратегию.

Редкая прозрачность

В индустрии, где каждая лаборатория рапортует об «ускорении» и «масштабировании», публичное признание дефицита мощностей — поступок. Ни OpenAI, ни Anthropic, ни Google никогда не писали в релизных заметках, что им не хватает железа. Даже когда это очевидно — очереди в API, ограничения rate limit, отложенные релизы — официальная позиция всегда остаётся «мы работаем над расширением доступа».

Z.ai пошла другим путём. Доступ к GLM-5 раскатывается поэтапно: сначала подписчики Max-плана, затем остальные тарифы. Запросы к GLM-5 потребляют больше квоты, чем к предыдущей GLM-4.7. Bloomberg ещё в январе сообщал, что Zhipu ограничивает доступ к своему кодинг-ассистенту из-за всплеска спроса, который «сифонил» вычислительные ресурсы.

Сообщество r/LocalLLaMA восприняло это с удивлением и уважением. Пост «Z.ai said they are GPU starved, openly» набрал почти 1200 очков — невероятно много для обсуждения инфраструктурных ограничений.

Что представляет собой GLM-5

Несмотря на дефицит GPU, сама модель получилась впечатляющей. GLM-5 — это 744 миллиарда параметров (40 миллиардов активных), обученная на 28,5 триллионах токенов. Для сравнения, предыдущая GLM-4.5 использовала 355B параметров (32B активных) и 23T токенов.

Ключевые результаты на бенчмарках рисуют картину модели, которая вплотную подошла к закрытым фронтирным решениям:

SWE-bench Verified: 77,8% (Claude Opus 4.5 — 80,9%, GPT-5.2 — 80,0%)
Terminal-Bench 2.0: 56,2% (Opus 4.5 — 59,3%)
GPQA-Diamond: 86,0% (Opus 4.5 — 87,0%)
BrowseComp с управлением контекстом: 75,9% — лучший результат среди всех моделей

Модель вышла под лицензией MIT — полностью открытая, без ограничений. Reuters подтверждает, что GLM-5 разработана с использованием китайских чипов для инференса: Huawei Ascend, Moore Threads, Cambricon и Kunlunxin.

Почему Z.ai голодает

Контекст проблемы выходит далеко за рамки одной компании. Китайские AI-лаборатории работают в условиях жёстких американских экспортных ограничений на передовые GPU. NVIDIA H100 и H200 недоступны, и приходится полагаться на отечественные решения — менее производительные и менее зрелые в плане программной экосистемы.

Zhipu, которая в январе 2026 года вышла на Гонконгскую биржу, одновременно столкнулась с двумя проблемами: резким ростом спроса на свои модели (акции компании взлетели на 30% после релиза GLM-5, по данным CNBC) и физической нехваткой вычислительных мощностей для обслуживания этого спроса.

Ситуация парадоксальна. Z.ai создала конкурентоспособную open-source модель, привлекла пользователей, показала впечатляющие бенчмарки — и теперь буквально не может обслужить всех желающих. Для стартапа, который ещё недавно был частным и только выходит на международный рынок, это одновременно лучшая и худшая проблема.

Что это меняет для индустрии

Прозрачность Z.ai заставляет задуматься: сколько ещё лабораторий молчат о похожих проблемах? Дефицит GPU — не уникальная проблема Zhipu. Он системный. Европейские компании жалуются на невозможность купить ускорители, американские гиперскейлеры тратят сотни миллиардов на инфраструктуру, а китайские лаборатории вынуждены искать обходные пути через отечественные чипы.

Но подход Z.ai отличается от конкурентов в одном принципиальном моменте: они не стали скрывать ограничения. Для пользователей это ценная информация — лучше знать, что доступ будет ограничен, чем столкнуться с необъяснимыми задержками. Для инвесторов — сигнал о честности менеджмента. Для конкурентов — напоминание о том, что даже лучшая модель бесполезна без инфраструктуры для её обслуживания.

Отдельного внимания заслуживает то, как Z.ai решает проблему инференса на не-NVIDIA чипах. Компания заявляет о поддержке Huawei Ascend, Moore Threads и ещё нескольких китайских производителей. Если эта стратегия окажется успешной, она может стать моделью для всей китайской AI-отрасли и ускорить развитие альтернативной полупроводниковой экосистемы.

Что дальше

GLM-5 — сильная модель с реальными ограничениями в доступе. Z.ai обещает постепенно расширять раскатку на все тарифные планы, но конкретных сроков не называет. Для тех, кто хочет попробовать модель локально, веса уже доступны на HuggingFace и ModelScope.

Главный вопрос на ближайшие месяцы: сможет ли Z.ai масштабировать инфраструктуру достаточно быстро, чтобы спрос не уничтожил то конкурентное преимущество, которое создала хорошая модель. Пока что компания решила быть честной. В индустрии, где прозрачность — редкость, это уже немало.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Z.ai открыто признала дефицит GPU — и это меняет правила

Редкая прозрачность

Что представляет собой GLM-5

Почему Z.ai голодает

Что это меняет для индустрии

Что дальше

Похожие новости

Субквадратичное внимание: 76 токенов/с на 10 миллионах контекста на одной GPU

Китай заблокировал импорт чипов Nvidia H200

MechaEpstein-8000: анонимная модель взорвала LocalLLaMA