GLM-Image: как китайская модель обошла DALL-E в рендеринге текста
Z.ai выпустила первую open-source модель генерации изображений промышленного уровня. Разбираем архитектуру, бенчмарки и почему это важно.

Текст на постере выглядит как настоящий. Не размытый, не с перепутанными буквами, не с выдуманными иероглифами — а именно такой, каким его задумал автор промпта. Для генеративных моделей это до сих пор остаётся нерешённой проблемой, но китайская Z.ai (ранее Zhipu AI) утверждает, что нашла решение.
14 января компания представила GLM-Image — первую open-source модель генерации изображений промышленного уровня с дискретной авторегрессивной архитектурой. И судя по бенчмаркам, китайцы не преувеличивают.
Что под капотом
GLM-Image использует гибридную архитектуру, которая объединяет два подхода к генерации. Авторегрессивная часть на 9 миллиардов параметров отвечает за понимание инструкций и общую композицию — она построена на базе языковой модели GLM-4-9B. Диффузионный декодер на 7 миллиардов параметров добавляет детали и прорабатывает текстуры.
Такое разделение труда решает классическую проблему: диффузионные модели отлично рисуют, но плохо понимают сложные инструкции. Авторегрессивные модели понимают текст, но исторически проигрывали в качестве картинки. GLM-Image берёт лучшее от обоих миров.
Отдельного внимания заслуживает работа с текстом. Модель использует специализированный Glyph-byT5 энкодер, который кодирует символы посимвольно — это критически важно для корректного отображения китайских иероглифов и сложной типографики.
По данным Bloomberg, модель обучалась на чипах Huawei Ascend — это первая крупная генеративная модель изображений, созданная полностью на китайском железе.
Бенчмарки: цифры говорят сами за себя
На CVTG-2k (Complex Visual Text Generation) GLM-Image показала Word Accuracy 0.9116 — лучший результат среди всех open-source моделей. Для сравнения: Qwen-Image набрала 0.8288, FLUX.1 [dev] — всего 0.4965.
| Модель | Word Accuracy | Open-source |
|---|---|---|
| GLM-Image | 0.9116 | Да |
| Seedream 4.5 | 0.899 | Нет |
| Qwen-Image-2512 | 0.8604 | Да |
| GPT Image 1 | 0.8569 | Нет |
| FLUX.1 [dev] | 0.4965 | Да |
На LongText-Bench, который тестирует рендеринг длинных текстов в постерах и презентациях, GLM-Image набрала 0.9788 для китайского языка — абсолютный рекорд. Английский текст тоже на высоте: 0.9524, уступая только закрытым моделям Seedream и Nano Banana.
В общих бенчмарках вроде DPG Bench и OneIG модель держится в середине таблицы. Это не флагман для генерации фотореалистичных портретов — это инструмент для тех, кому нужен точный текст на картинке.
Для кого это
Z.ai позиционирует GLM-Image как решение для бизнес-графики: коммерческие постеры, презентации, инфографика, контент для соцсетей. Везде, где нужно совместить изображение с читаемым текстом на китайском или английском.
Источник: Z.ai
Модель поддерживает не только генерацию с нуля, но и редактирование существующих изображений, перенос стиля и сохранение идентичности персонажей между кадрами — полезно для создания комиксов или серии рекламных материалов.
Технические характеристики:
- Разрешение: от 1024 до 2048 пикселей
- Соотношения сторон: 1:1, 3:4, 4:3, 16:9 и другие
- Цена API: $0.015 за изображение
- Лицензия: MIT (полностью открытая)
Как попробовать
Модель доступна через API на z.ai, а также на GitHub и HuggingFace для локального запуска. Для API достаточно нескольких строк:
from zai import ZaiClient
client = ZaiClient(api_key="your-api-key")
response = client.images.generations(
model="glm-image",
prompt="Праздничный постер с текстом 'С Новым Годом 2026'",
size="1280x1280"
)
print(response.data[0].url)
Что это значит для рынка
Появление GLM-Image — ещё один сигнал того, что китайские компании догоняют западных лидеров не только в языковых моделях. Z.ai уже выпустила конкурентоспособные GLM-4 и CogView, а теперь закрывает нишу, которую западные игроки пока игнорируют.
DALL-E 3 и Midjourney делают ставку на креатив и фотореализм. GLM-Image целится в другой рынок — там, где картинка должна что-то сообщать, а не просто красиво выглядеть.
Для российских пользователей это особенно интересно: модель хорошо работает с нелатинскими шрифтами, доступна без VPN и стоит дешевле западных аналогов. Единственный вопрос — как она справится с кириллицей. Официальных тестов пока нет, но архитектура с посимвольным кодированием даёт надежду.

