Qwen 3.6 27B обошла собственную 397B модель на коде

Alibaba выпустила плотную 27B-модель, которая в agentic coding обгоняет Qwen 3.5-397B и запускается локально на 18 ГБ. Разбираем бенчмарки и как её запустить.

55,6 гигабайта побили 807. 22 апреля Alibaba выпустила Qwen 3.6-27B — плотную модель на 27 миллиардов параметров, которая на agentic-coding бенчмарках обходит собственного старшего брата Qwen 3.5-397B-A17B и при этом запускается на одной RTX 4090 или Mac c 24 ГБ unified memory. Весá выложены под Apache 2.0, без ограничений на коммерческое использование.

Что нового

Главное архитектурное решение — возврат к плотной модели. Почти весь 2025-й и начало 2026-го прошли под знаменем MoE: большие модели активируют лишь часть параметров на токен (Qwen 3.5-397B активирует 17B из 397B). Плотная Qwen 3.6-27B использует все 27 миллиардов на каждом проходе — проще деплой, предсказуемое квантование, никаких экспертов и роутинга. Гибридная архитектура Gated DeltaNet даёт линейное внимание с классическим self-attention вперемешку, что и позволяет модели держать планку при меньшем размере.

Второе — Thinking Preservation. Классические reasoning-модели генерят chain-of-thought, а потом выбрасывают его перед следующей репликой. Qwen 3.6 умеет сохранять следы рассуждений между ходами в агентной сессии: меньше дублирующих токенов, эффективнее KV cache, стабильнее решения в длинных циклах. Включается параметром preserve_thinking: true в chat template. Qwen рекомендует держать минимум 128K контекста, чтобы механизм работал корректно.

Третье — нативная мультимодальность. Текст, изображение, видео обрабатывает один энкодер, не бортовой адаптер. Контекст 262 144 токена по умолчанию, растягивается до 1 010 000 через YaRN — хватит, чтобы целиком скормить средний репозиторий.

Производительность

Бенчмарк	Qwen 3.6-27B	Qwen 3.5-397B-A17B	Claude Opus 4.6
SWE-bench Verified	77,2%	76,2%	80,8%
SWE-bench Pro	53,5%	50,9%	—
Terminal-Bench 2.0	59,3%	52,5%	59,3%
SkillsBench	48,2%	30,0%	—
GPQA Diamond	87,8%	—	—

Terminal-Bench 2.0 с 3-часовым таймаутом, 32 CPU и 48 ГБ RAM — один из самых честных тестов автономной работы в терминале. Совпасть там с Claude 4.5 Opus при 14,8× меньшем числе параметров — это не просто красивая цифра для пресс-релиза.

Есть важная оговорка: цифры получены на внутреннем agent-scaffold Qwen (bash + file-edit). Независимые воспроизведения на 23 апреля ограничены, первые тесты от Simon Willison и комьюнити LocalLLaMA подтверждают направление, но не точные проценты. GPQA Diamond проверяется извне и сходится с другими источниками.

Для разработчиков

Unsloth уже выложила GGUF-кванты day-zero. Рекомендованный UD-Q4_K_XL весит 16,8 ГБ и работает на 18 ГБ общей памяти (RAM + VRAM). Ollama пока не поддерживает — из-за отдельных mmproj-файлов для vision-части. llama.cpp и Unsloth Studio работают из коробки.

Технические требования:

Q4_K_M / UD-Q4_K_XL: ~18 ГБ памяти
Q2: от 12 ГБ (с потерей качества)
BF16 full precision: 60+ ГБ
Формат: GGUF, safetensors
Лицензия: Apache 2.0

Важный warning из документации Unsloth: на CUDA 13.2 модель выдаёт мусор — известный баг, фикс от NVIDIA в работе. До этого момента используйте CUDA 12.x.

Как попробовать

Через llama.cpp:

llama-server -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
  --temp 0.6 --top-p 0.95 --top-k 20 \
  --presence-penalty 1.5 --min-p 0.00 \
  --chat-template-kwargs '{"preserve_thinking": true}'

Сервер поднимается на localhost:8080 с OpenAI-совместимым API — можно направить туда Claude Code, OpenCode, Codex CLI и любой другой клиент. Для Claude Code достаточно переопределить ANTHROPIC_BASE_URL на адрес сервера и скормить dummy-токен.

Без локального железа есть три пути: бесплатный chat.qwen.ai, платная DashScope API у Alibaba Cloud, и OpenRouter для тех, кто уже маршрутизирует модели через него.

Цены

Способ	Стоимость	Особенности
Локально (GGUF)	бесплатно	Нужны 18+ ГБ памяти
chat.qwen.ai	бесплатно	Web UI, без API
Alibaba DashScope	по API-тарифу	OpenAI-совместимый endpoint
OpenRouter	агрегированный тариф	Удобно для мульти-модельных стеков

Что это меняет

Последние полтора года индустрия убеждала: чтобы получить топовую модель, нужен MoE на сотни миллиардов параметров и кластер H100 под него. Qwen 3.6-27B ломает этот консенсус конкретным сравнением — плотная 27B на потребительской видеокарте обходит MoE-флагман того же вендора на реальных agentic-бенчмарках.

Для разработчиков это значит, что локальный coding-агент на собственном железе теперь не компромисс, а жизнеспособная альтернатива облачной подписке. Для Anthropic и OpenAI — сигнал, что разрыв между открытыми весами и проприетарными фронтирами продолжает сжиматься: до Claude Opus 4.6 на SWE-bench всего 3,6 пункта. Для рынка чипов — ещё один аргумент, что не весь AI-бум уйдёт в ЦОДы, и часть спроса смещается к десктопным GPU с 24–48 ГБ VRAM.

Итог

Кому подойдёт: разработчикам с 18–24 ГБ VRAM, которым нужен локальный coding-агент; компаниям с требованиями по data residency; тем, кто хочет уйти от подписочной модели.

Стоит ли обновляться: если вы сидите на Qwen 3.5-30B или Gemma 4 31B — да, однозначно. Если на Claude Opus 4.6/4.7 — оставайтесь, SWE-bench всё ещё за ними, но держите Qwen в резерве для оффлайн-задач и чувствительного кода.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Qwen 3.6 27B обошла собственную 397B модель на коде

Что нового

Производительность

Для разработчиков

Как попробовать

Цены

Что это меняет

Итог

Похожие новости

Qwen3.6-Max-Preview: Alibaba закрыла веса флагмана и забрала шесть бенчмарков

Qwen открыла полный набор TTS-моделей с поддержкой русского

Qwen3-Coder-Next: 70% SWE-bench при 3B активных параметрах