Qwen 3.6 27B обошла собственную 397B модель на коде
Alibaba выпустила плотную 27B-модель, которая в agentic coding обгоняет Qwen 3.5-397B и запускается локально на 18 ГБ. Разбираем бенчмарки и как её запустить.

55,6 гигабайта побили 807. 22 апреля Alibaba выпустила Qwen 3.6-27B — плотную модель на 27 миллиардов параметров, которая на agentic-coding бенчмарках обходит собственного старшего брата Qwen 3.5-397B-A17B и при этом запускается на одной RTX 4090 или Mac c 24 ГБ unified memory. Весá выложены под Apache 2.0, без ограничений на коммерческое использование.
Что нового
Главное архитектурное решение — возврат к плотной модели. Почти весь 2025-й и начало 2026-го прошли под знаменем MoE: большие модели активируют лишь часть параметров на токен (Qwen 3.5-397B активирует 17B из 397B). Плотная Qwen 3.6-27B использует все 27 миллиардов на каждом проходе — проще деплой, предсказуемое квантование, никаких экспертов и роутинга. Гибридная архитектура Gated DeltaNet даёт линейное внимание с классическим self-attention вперемешку, что и позволяет модели держать планку при меньшем размере.
Второе — Thinking Preservation. Классические reasoning-модели генерят chain-of-thought, а потом выбрасывают его перед следующей репликой. Qwen 3.6 умеет сохранять следы рассуждений между ходами в агентной сессии: меньше дублирующих токенов, эффективнее KV cache, стабильнее решения в длинных циклах. Включается параметром preserve_thinking: true в chat template. Qwen рекомендует держать минимум 128K контекста, чтобы механизм работал корректно.
Третье — нативная мультимодальность. Текст, изображение, видео обрабатывает один энкодер, не бортовой адаптер. Контекст 262 144 токена по умолчанию, растягивается до 1 010 000 через YaRN — хватит, чтобы целиком скормить средний репозиторий.
Производительность
| Бенчмарк | Qwen 3.6-27B | Qwen 3.5-397B-A17B | Claude Opus 4.6 |
|---|---|---|---|
| SWE-bench Verified | 77,2% | 76,2% | 80,8% |
| SWE-bench Pro | 53,5% | 50,9% | — |
| Terminal-Bench 2.0 | 59,3% | 52,5% | 59,3% |
| SkillsBench | 48,2% | 30,0% | — |
| GPQA Diamond | 87,8% | — | — |
Terminal-Bench 2.0 с 3-часовым таймаутом, 32 CPU и 48 ГБ RAM — один из самых честных тестов автономной работы в терминале. Совпасть там с Claude 4.5 Opus при 14,8× меньшем числе параметров — это не просто красивая цифра для пресс-релиза.
Есть важная оговорка: цифры получены на внутреннем agent-scaffold Qwen (bash + file-edit). Независимые воспроизведения на 23 апреля ограничены, первые тесты от Simon Willison и комьюнити LocalLLaMA подтверждают направление, но не точные проценты. GPQA Diamond проверяется извне и сходится с другими источниками.
Для разработчиков
Unsloth уже выложила GGUF-кванты day-zero. Рекомендованный UD-Q4_K_XL весит 16,8 ГБ и работает на 18 ГБ общей памяти (RAM + VRAM). Ollama пока не поддерживает — из-за отдельных mmproj-файлов для vision-части. llama.cpp и Unsloth Studio работают из коробки.
Технические требования:
- Q4_K_M / UD-Q4_K_XL: ~18 ГБ памяти
- Q2: от 12 ГБ (с потерей качества)
- BF16 full precision: 60+ ГБ
- Формат: GGUF, safetensors
- Лицензия: Apache 2.0
Важный warning из документации Unsloth: на CUDA 13.2 модель выдаёт мусор — известный баг, фикс от NVIDIA в работе. До этого момента используйте CUDA 12.x.
Как попробовать
Через llama.cpp:
llama-server -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
--temp 0.6 --top-p 0.95 --top-k 20 \
--presence-penalty 1.5 --min-p 0.00 \
--chat-template-kwargs '{"preserve_thinking": true}'
Сервер поднимается на localhost:8080 с OpenAI-совместимым API — можно направить туда Claude Code, OpenCode, Codex CLI и любой другой клиент. Для Claude Code достаточно переопределить ANTHROPIC_BASE_URL на адрес сервера и скормить dummy-токен.
Без локального железа есть три пути: бесплатный chat.qwen.ai, платная DashScope API у Alibaba Cloud, и OpenRouter для тех, кто уже маршрутизирует модели через него.
Цены
| Способ | Стоимость | Особенности |
|---|---|---|
| Локально (GGUF) | бесплатно | Нужны 18+ ГБ памяти |
| chat.qwen.ai | бесплатно | Web UI, без API |
| Alibaba DashScope | по API-тарифу | OpenAI-совместимый endpoint |
| OpenRouter | агрегированный тариф | Удобно для мульти-модельных стеков |
Что это меняет
Последние полтора года индустрия убеждала: чтобы получить топовую модель, нужен MoE на сотни миллиардов параметров и кластер H100 под него. Qwen 3.6-27B ломает этот консенсус конкретным сравнением — плотная 27B на потребительской видеокарте обходит MoE-флагман того же вендора на реальных agentic-бенчмарках.
Для разработчиков это значит, что локальный coding-агент на собственном железе теперь не компромисс, а жизнеспособная альтернатива облачной подписке. Для Anthropic и OpenAI — сигнал, что разрыв между открытыми весами и проприетарными фронтирами продолжает сжиматься: до Claude Opus 4.6 на SWE-bench всего 3,6 пункта. Для рынка чипов — ещё один аргумент, что не весь AI-бум уйдёт в ЦОДы, и часть спроса смещается к десктопным GPU с 24–48 ГБ VRAM.
Итог
Кому подойдёт: разработчикам с 18–24 ГБ VRAM, которым нужен локальный coding-агент; компаниям с требованиями по data residency; тем, кто хочет уйти от подписочной модели.
Стоит ли обновляться: если вы сидите на Qwen 3.5-30B или Gemma 4 31B — да, однозначно. Если на Claude Opus 4.6/4.7 — оставайтесь, SWE-bench всё ещё за ними, но держите Qwen в резерве для оффлайн-задач и чувствительного кода.


