Gemma 4 vs Qwen 3.5: кто теперь лидер открытых моделей

Сравниваем Google Gemma 4 и Alibaba Qwen 3.5 по бенчмаркам, архитектуре, скорости и лицензиям. Подробный разбор с таблицами и рекомендациями.

Месяц назад расклад в мире открытых моделей казался устоявшимся: Qwen 3.5 лидирует в математике и коде, Llama 4 Scout — в контексте и рассуждениях, Gemma 3 замыкает тройку. 2 апреля Google выпустила Gemma 4 — и таблица перевернулась.

Быстрое сравнение

Бенчмарк	Gemma 4 31B	Qwen 3.5 27B	Qwen 3.5 122B-A10B
MMLU-Pro	85,2%	86,1%	86,7%
GPQA Diamond	84,3%	85,5%	86,6%
LiveCodeBench v6	80,0%	80,7%	78,9%
Codeforces ELO	2150	1899	2100
TAU2-Bench	76,9%	79,0%	79,5%
MMMLU	88,4%	85,9%	86,7%
HLE (без инструм.)	19,5%	24,3%	25,3%

На первый взгляд — паритет. Qwen 3.5 чуть впереди по GPQA и MMLU-Pro, Gemma 4 берёт Codeforces ELO и мультиязычность. Но дьявол в деталях.

Главный козырь Gemma 4: MoE за копейки

Помимо флагманской 31B, Google выпустила Gemma 4 26B-A4B — модель с архитектурой Mixture of Experts: 128 маленьких экспертов, из которых 8 активны на каждый токен, плюс один общий. Итого 25,2 млрд параметров, но на каждый токен работают только 3,8 млрд.

Результат — 97% качества от полной 31B-модели при 8-кратном снижении вычислений:

Бенчмарк	Gemma 4 31B	Gemma 4 26B-A4B	Qwen 3.5 35B-A3B
MMLU-Pro	85,2%	82,6%	85,3%
GPQA Diamond	84,3%	82,3%	84,2%
LiveCodeBench v6	80,0%	77,1%	74,6%
Codeforces ELO	2150	1718	2028

На RTX 4090 Gemma 4 26B-A4B выдаёт ~150 tok/s против ~100 tok/s у Qwen 3.5 35B-A3B — прирост в 50% на том же железе. Для задач, где важна скорость (автокомплит, чат-боты, агенты), это существенная разница.

Где Qwen 3.5 всё ещё впереди

Qwen удерживает несколько важных преимуществ.

Мультиязычность остаётся сильной стороной Alibaba. Словарь в 250 тыс. токенов и поддержка 201 языка против 140 у Gemma — это заметно на CJK-языках, арабском и других нелатинских скриптах. Для русского языка оба семейства работают хорошо, но Qwen традиционно сильнее в азиатских языках.

Humanity's Last Exam — тест, где модели решают экспертные задачи, которые «ставят в тупик всех» — показывает серьёзный разрыв: Qwen 3.5 27B набирает 24,3% без инструментов и 48,5% с инструментами. Gemma 4 31B — 19,5% и 26,5% соответственно. На задачах, требующих глубокой экспертизы, Qwen пока сильнее.

Малые модели — отдельная история. Qwen 3.5 4B и 0.8B, по отзывам сообщества r/LocalLLaMA, значительно опережают аналоги от Google в своих весовых категориях. Один разработчик описывает Qwen 3.5 0.8B как модель, способную на tool use и RAG — «можно отправить пользователю, который не знает про AI, и базовые функции работают».

Где Gemma 4 вырвалась вперёд

Скачок по сравнению с Gemma 3 — самый большой в истории открытых моделей. Несколько цифр:

GPQA Diamond: 42,4% → 84,3% (почти удвоение)
AIME 2026 (математика): 20,8% → 89,2%
LiveCodeBench: 29,1% → 80,0%
Codeforces ELO: 110 → 2150

Thinking mode — модель рассуждает до 4 000+ токенов перед ответом — объясняет рывок в математике и коде. Gemma 3 не умела думать; Gemma 4 думает на уровне лучших в классе.

Лицензия изменилась с «Gemma Open» (коммерческая, но с ограничениями Google) на Apache 2.0 — ту же, что у Qwen 3.5. Для бизнеса это снимает юридические барьеры. Llama 4 с лимитом в 700 млн MAU теперь самая ограниченная из тройки.

Контекстное окно у Gemma 4 выросло до 256K, и, в отличие от Gemma 3, модель реально использует длинный контекст: 66,4% на тесте MRCR v2 (128K) против 13,5% у предшественника.

Когда какую выбрать

Задача	Рекомендация
Лучшее качество на 32 ГБ GPU	Gemma 4 31B
Лучшее качество/вычисления	Gemma 4 26B-A4B
Мультиязычность (особенно CJK)	Qwen 3.5 27B
Контекст 10M+ токенов	Llama 4 Scout
Edge/мобильные устройства	Gemma 4 E2B или Qwen 3.5 4B
Экстремальное сжатие	Gemma 4 E2B (2,3B активных)
Агентные workflow	Gemma 4 31B (thinking + function calling)

Итог

Gemma 4 не просто догнала Qwen 3.5 — она создала конкуренцию в каждой категории, где месяц назад проигрывала без шансов. Qwen по-прежнему сильнее в мультиязычности, экспертных задачах и малых моделях. Gemma берёт скоростью инференса MoE-варианта, открытой лицензией и самым большим поколенческим скачком среди всех открытых моделей.

Для рядового разработчика, который запускает модель на RTX 4090 или Mac с 32 ГБ, обе модели — отличный выбор. Разница в бенчмарках составляет 1–3% в ту или иную сторону, и выбор между ними скорее зависит от конкретной задачи, чем от общего «кто лучше».

Мяч на стороне Alibaba: Qwen 3.6 должен ответить на вызов Gemma 4. А Meta с Llama 5 может перемешать карты заново.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Gemma 4 vs Qwen 3.5: кто теперь лидер открытых моделей

Быстрое сравнение

Главный козырь Gemma 4: MoE за копейки

Где Qwen 3.5 всё ещё впереди

Где Gemma 4 вырвалась вперёд

Когда какую выбрать

Итог

Похожие новости

Qwen 3.6 27B vs Gemma 4 31B: кто лучше для геймдева

Gemma 4: Google открывает свои лучшие модели под Apache 2.0

Апрель 2026 — рекордный месяц open-source AI