Gemma 4 vs Qwen 3.5: кто теперь лидер открытых моделей
Сравниваем Google Gemma 4 и Alibaba Qwen 3.5 по бенчмаркам, архитектуре, скорости и лицензиям. Подробный разбор с таблицами и рекомендациями.

Месяц назад расклад в мире открытых моделей казался устоявшимся: Qwen 3.5 лидирует в математике и коде, Llama 4 Scout — в контексте и рассуждениях, Gemma 3 замыкает тройку. 2 апреля Google выпустила Gemma 4 — и таблица перевернулась.
Быстрое сравнение
| Бенчмарк | Gemma 4 31B | Qwen 3.5 27B | Qwen 3.5 122B-A10B |
|---|---|---|---|
| MMLU-Pro | 85,2% | 86,1% | 86,7% |
| GPQA Diamond | 84,3% | 85,5% | 86,6% |
| LiveCodeBench v6 | 80,0% | 80,7% | 78,9% |
| Codeforces ELO | 2150 | 1899 | 2100 |
| TAU2-Bench | 76,9% | 79,0% | 79,5% |
| MMMLU | 88,4% | 85,9% | 86,7% |
| HLE (без инструм.) | 19,5% | 24,3% | 25,3% |
На первый взгляд — паритет. Qwen 3.5 чуть впереди по GPQA и MMLU-Pro, Gemma 4 берёт Codeforces ELO и мультиязычность. Но дьявол в деталях.
Главный козырь Gemma 4: MoE за копейки
Помимо флагманской 31B, Google выпустила Gemma 4 26B-A4B — модель с архитектурой Mixture of Experts: 128 маленьких экспертов, из которых 8 активны на каждый токен, плюс один общий. Итого 25,2 млрд параметров, но на каждый токен работают только 3,8 млрд.
Результат — 97% качества от полной 31B-модели при 8-кратном снижении вычислений:
| Бенчмарк | Gemma 4 31B | Gemma 4 26B-A4B | Qwen 3.5 35B-A3B |
|---|---|---|---|
| MMLU-Pro | 85,2% | 82,6% | 85,3% |
| GPQA Diamond | 84,3% | 82,3% | 84,2% |
| LiveCodeBench v6 | 80,0% | 77,1% | 74,6% |
| Codeforces ELO | 2150 | 1718 | 2028 |
На RTX 4090 Gemma 4 26B-A4B выдаёт ~150 tok/s против ~100 tok/s у Qwen 3.5 35B-A3B — прирост в 50% на том же железе. Для задач, где важна скорость (автокомплит, чат-боты, агенты), это существенная разница.
Где Qwen 3.5 всё ещё впереди
Qwen удерживает несколько важных преимуществ.
Мультиязычность остаётся сильной стороной Alibaba. Словарь в 250 тыс. токенов и поддержка 201 языка против 140 у Gemma — это заметно на CJK-языках, арабском и других нелатинских скриптах. Для русского языка оба семейства работают хорошо, но Qwen традиционно сильнее в азиатских языках.
Humanity's Last Exam — тест, где модели решают экспертные задачи, которые «ставят в тупик всех» — показывает серьёзный разрыв: Qwen 3.5 27B набирает 24,3% без инструментов и 48,5% с инструментами. Gemma 4 31B — 19,5% и 26,5% соответственно. На задачах, требующих глубокой экспертизы, Qwen пока сильнее.
Малые модели — отдельная история. Qwen 3.5 4B и 0.8B, по отзывам сообщества r/LocalLLaMA, значительно опережают аналоги от Google в своих весовых категориях. Один разработчик описывает Qwen 3.5 0.8B как модель, способную на tool use и RAG — «можно отправить пользователю, который не знает про AI, и базовые функции работают».
Где Gemma 4 вырвалась вперёд
Скачок по сравнению с Gemma 3 — самый большой в истории открытых моделей. Несколько цифр:
- GPQA Diamond: 42,4% → 84,3% (почти удвоение)
- AIME 2026 (математика): 20,8% → 89,2%
- LiveCodeBench: 29,1% → 80,0%
- Codeforces ELO: 110 → 2150
Thinking mode — модель рассуждает до 4 000+ токенов перед ответом — объясняет рывок в математике и коде. Gemma 3 не умела думать; Gemma 4 думает на уровне лучших в классе.
Лицензия изменилась с «Gemma Open» (коммерческая, но с ограничениями Google) на Apache 2.0 — ту же, что у Qwen 3.5. Для бизнеса это снимает юридические барьеры. Llama 4 с лимитом в 700 млн MAU теперь самая ограниченная из тройки.
Контекстное окно у Gemma 4 выросло до 256K, и, в отличие от Gemma 3, модель реально использует длинный контекст: 66,4% на тесте MRCR v2 (128K) против 13,5% у предшественника.
Когда какую выбрать
| Задача | Рекомендация |
|---|---|
| Лучшее качество на 32 ГБ GPU | Gemma 4 31B |
| Лучшее качество/вычисления | Gemma 4 26B-A4B |
| Мультиязычность (особенно CJK) | Qwen 3.5 27B |
| Контекст 10M+ токенов | Llama 4 Scout |
| Edge/мобильные устройства | Gemma 4 E2B или Qwen 3.5 4B |
| Экстремальное сжатие | Gemma 4 E2B (2,3B активных) |
| Агентные workflow | Gemma 4 31B (thinking + function calling) |
Итог
Gemma 4 не просто догнала Qwen 3.5 — она создала конкуренцию в каждой категории, где месяц назад проигрывала без шансов. Qwen по-прежнему сильнее в мультиязычности, экспертных задачах и малых моделях. Gemma берёт скоростью инференса MoE-варианта, открытой лицензией и самым большим поколенческим скачком среди всех открытых моделей.
Для рядового разработчика, который запускает модель на RTX 4090 или Mac с 32 ГБ, обе модели — отличный выбор. Разница в бенчмарках составляет 1–3% в ту или иную сторону, и выбор между ними скорее зависит от конкретной задачи, чем от общего «кто лучше».
Мяч на стороне Alibaba: Qwen 3.6 должен ответить на вызов Gemma 4. А Meta с Llama 5 может перемешать карты заново.
