GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
gemmaqwenсравнениебенчмаркиоткрытые-моделиgooglealibaba

Gemma 4 vs Qwen 3.5: кто теперь лидер открытых моделей

Сравниваем Google Gemma 4 и Alibaba Qwen 3.5 по бенчмаркам, архитектуре, скорости и лицензиям. Подробный разбор с таблицами и рекомендациями.

Влад МакаровВлад Макаровпроверил и опубликовал
7 мин чтения
Gemma 4 vs Qwen 3.5: кто теперь лидер открытых моделей

Месяц назад расклад в мире открытых моделей казался устоявшимся: Qwen 3.5 лидирует в математике и коде, Llama 4 Scout — в контексте и рассуждениях, Gemma 3 замыкает тройку. 2 апреля Google выпустила Gemma 4 — и таблица перевернулась.

Быстрое сравнение

БенчмаркGemma 4 31BQwen 3.5 27BQwen 3.5 122B-A10B
MMLU-Pro85,2%86,1%86,7%
GPQA Diamond84,3%85,5%86,6%
LiveCodeBench v680,0%80,7%78,9%
Codeforces ELO215018992100
TAU2-Bench76,9%79,0%79,5%
MMMLU88,4%85,9%86,7%
HLE (без инструм.)19,5%24,3%25,3%

На первый взгляд — паритет. Qwen 3.5 чуть впереди по GPQA и MMLU-Pro, Gemma 4 берёт Codeforces ELO и мультиязычность. Но дьявол в деталях.

Главный козырь Gemma 4: MoE за копейки

Помимо флагманской 31B, Google выпустила Gemma 4 26B-A4B — модель с архитектурой Mixture of Experts: 128 маленьких экспертов, из которых 8 активны на каждый токен, плюс один общий. Итого 25,2 млрд параметров, но на каждый токен работают только 3,8 млрд.

Результат — 97% качества от полной 31B-модели при 8-кратном снижении вычислений:

БенчмаркGemma 4 31BGemma 4 26B-A4BQwen 3.5 35B-A3B
MMLU-Pro85,2%82,6%85,3%
GPQA Diamond84,3%82,3%84,2%
LiveCodeBench v680,0%77,1%74,6%
Codeforces ELO215017182028

На RTX 4090 Gemma 4 26B-A4B выдаёт ~150 tok/s против ~100 tok/s у Qwen 3.5 35B-A3B — прирост в 50% на том же железе. Для задач, где важна скорость (автокомплит, чат-боты, агенты), это существенная разница.

Где Qwen 3.5 всё ещё впереди

Qwen удерживает несколько важных преимуществ.

Мультиязычность остаётся сильной стороной Alibaba. Словарь в 250 тыс. токенов и поддержка 201 языка против 140 у Gemma — это заметно на CJK-языках, арабском и других нелатинских скриптах. Для русского языка оба семейства работают хорошо, но Qwen традиционно сильнее в азиатских языках.

Humanity's Last Exam — тест, где модели решают экспертные задачи, которые «ставят в тупик всех» — показывает серьёзный разрыв: Qwen 3.5 27B набирает 24,3% без инструментов и 48,5% с инструментами. Gemma 4 31B — 19,5% и 26,5% соответственно. На задачах, требующих глубокой экспертизы, Qwen пока сильнее.

Малые модели — отдельная история. Qwen 3.5 4B и 0.8B, по отзывам сообщества r/LocalLLaMA, значительно опережают аналоги от Google в своих весовых категориях. Один разработчик описывает Qwen 3.5 0.8B как модель, способную на tool use и RAG — «можно отправить пользователю, который не знает про AI, и базовые функции работают».

Где Gemma 4 вырвалась вперёд

Скачок по сравнению с Gemma 3 — самый большой в истории открытых моделей. Несколько цифр:

  • GPQA Diamond: 42,4% → 84,3% (почти удвоение)
  • AIME 2026 (математика): 20,8% → 89,2%
  • LiveCodeBench: 29,1% → 80,0%
  • Codeforces ELO: 110 → 2150

Thinking mode — модель рассуждает до 4 000+ токенов перед ответом — объясняет рывок в математике и коде. Gemma 3 не умела думать; Gemma 4 думает на уровне лучших в классе.

Лицензия изменилась с «Gemma Open» (коммерческая, но с ограничениями Google) на Apache 2.0 — ту же, что у Qwen 3.5. Для бизнеса это снимает юридические барьеры. Llama 4 с лимитом в 700 млн MAU теперь самая ограниченная из тройки.

Контекстное окно у Gemma 4 выросло до 256K, и, в отличие от Gemma 3, модель реально использует длинный контекст: 66,4% на тесте MRCR v2 (128K) против 13,5% у предшественника.

Когда какую выбрать

ЗадачаРекомендация
Лучшее качество на 32 ГБ GPUGemma 4 31B
Лучшее качество/вычисленияGemma 4 26B-A4B
Мультиязычность (особенно CJK)Qwen 3.5 27B
Контекст 10M+ токеновLlama 4 Scout
Edge/мобильные устройстваGemma 4 E2B или Qwen 3.5 4B
Экстремальное сжатиеGemma 4 E2B (2,3B активных)
Агентные workflowGemma 4 31B (thinking + function calling)

Итог

Gemma 4 не просто догнала Qwen 3.5 — она создала конкуренцию в каждой категории, где месяц назад проигрывала без шансов. Qwen по-прежнему сильнее в мультиязычности, экспертных задачах и малых моделях. Gemma берёт скоростью инференса MoE-варианта, открытой лицензией и самым большим поколенческим скачком среди всех открытых моделей.

Для рядового разработчика, который запускает модель на RTX 4090 или Mac с 32 ГБ, обе модели — отличный выбор. Разница в бенчмарках составляет 1–3% в ту или иную сторону, и выбор между ними скорее зависит от конкретной задачи, чем от общего «кто лучше».

Мяч на стороне Alibaba: Qwen 3.6 должен ответить на вызов Gemma 4. А Meta с Llama 5 может перемешать карты заново.

Похожие новости

Листайте вниз

для загрузки следующей статьи