Фикс GLM-4.7 Flash в llama.cpp: перескачайте модель
Критический багфикс устранил зацикливание и плохие ответы. GGUF-файлы переконвертированы, нужно скачать заново.
Если вы пытались запустить GLM-4.7 Flash локально через llama.cpp и получали странные зацикленные ответы — проблема была не в вас. 21 января разработчики llama.cpp исправили критический баг, который ломал работу модели.
Что произошло
Daniel Han из команды Unsloth сообщил о фиксе: баг вызывал looping (зацикливание) и некачественные выходы у GGUF-версий GLM-4.7 Flash. После патча модель стала работать корректно.
Важный момент: просто обновить llama.cpp недостаточно. GGUF-файлы были переконвертированы, поэтому нужно заново скачать модель. Квантизованная версия Q4 теперь стабильно работает на системах с 18 ГБ RAM.
Где скачать обновлённые версии:
- ngxson/GLM-4.7-Flash-GGUF — официальный репозиторий
- unsloth/GLM-4.7-Flash-GGUF — версия от Unsloth
Почему это важно
GLM-4.7 Flash — одна из самых интересных открытых моделей начала 2026 года. При архитектуре 30B параметров (3B активных) она показывает 59.2% на SWE-bench Verified и 79.5% на τ²-Bench для tool calling — результаты на уровне Claude 3.5 Sonnet. При этом Z.ai предоставляет бесплатный API с одним параллельным запросом.
До фикса многие пользователи думали, что проблема в их настройках или квантизации, и отказывались от модели. Теперь GLM-4.7 Flash — полноценная опция для локального запуска.
Что дальше
Если вы используете llama.cpp, обновите его до последней версии и перескачайте GGUF. Для тех, кто предпочитает другие фреймворки: vLLM и SGLang работали корректно изначально, там ничего делать не нужно.