Qwen 3.6-27B локально кодит почти как фронтиры — но «почти» решает

На бенчмарке single-file refactoring Qwen 3.6 в кванте Q4_K_M отстаёт от Claude и GPT-5 на 10-15 пунктов. Для рутины этого хватит. Для архитектурных решений — пока нет.

«Можно ли уже выкинуть Claude и сесть на Qwen на собственной 4090?» — этот вопрос на r/LocalLLaMA задают каждую неделю. На прошлой неделе кто-то наконец взял Qwen 3.6-27B в разных квантах и прогнал на одной и той же задаче — single-file refactoring — против Claude 4.6, GPT-5 и Gemini 3.1. Пост набрал 475 апвоутов и 145 комментариев, и его выводы немного болезненные, но честные.

Что мерили

Бенчмарк сознательно выбран узкий: один файл от 300 до 1500 строк, задача — переписать его, сохранив поведение, но с конкретными требованиями (вынести в чистые функции, типизировать, добавить тесты). Это самый «честный» сценарий для локальной модели: не нужен длинный контекст, не нужна многофайловая навигация, не нужны внешние тулзы. Только модель и файл.

Тестировали:

Qwen 3.6-27B в Q4_K_M (~22 ГБ VRAM) — стандартный «потолок» для одной 4090.
Qwen 3.6-27B в Q5_K_M (~24 ГБ VRAM) — eдва влезает в 24-гиговую карту.
Qwen 3.6-27B FP8 на двух картах через vLLM.
Claude Sonnet 4.6, GPT-5 Thinking, Gemini 3.1 Pro — через официальные API.

Метрика — простая: процент задач, на которых код после рефакторинга проходит весь набор регрессионных тестов плюс новые. Без человеческого ревью архитектуры, без оценки «красоты» — только бинарное «работает / не работает».

Цифры

Модель	Pass-rate	Скорость (ток/с)	Стоимость на 1k запросов
Claude Sonnet 4.6	91%	~80 (cloud)	~$45
GPT-5 Thinking	89%	~60 (cloud)	~$52
Gemini 3.1 Pro	86%	~95 (cloud)	~$28
Qwen 3.6-27B FP8 (2×GPU)	81%	~70	электричество
Qwen 3.6-27B Q5_K_M	79%	~30	электричество
Qwen 3.6-27B Q4_K_M	75%	~30	электричество
Qwen 3.6-27B Q3_K_S	64%	~38	электричество

Главный вывод — квантизация бьёт сильно. Q4_K_M уже забирает -6 пунктов относительно FP8. Q3_K_S, который многие используют, чтобы влезть в 16-гиговую карту, отрезает ещё 11 пунктов и тащит модель в зону «непригодно для серьёзной работы». Старое правило про «Q4 — минимум для кода» подтвердилось.

Главный фронтир-разрыв — около 10-16 пунктов между лучшей локальной конфигурацией и Claude. На уровне распределения это значит: на каждых десяти задачах локальная модель завалит на одну больше, чем Claude.

Что говорят другие бенчмарки

Параллельно подъехал сравнительный обзор PromptQuorum за май, и его цифры подтверждают ту же картину. На SWE-bench — реальные GitHub issues, multi-file, с тестами — Qwen 3.6-27B (Dense) выдаёт 77.2%. Это лучший dense-результат среди локальных моделей. Frontier-облако пока сидит на 82-87%.

Интересный кандидат на корону — Kimi K2.6 от Moonshot AI: 87/100 на real-world coding benchmark, MoE-архитектура (42B активных параметров из 1T суммарных), лицензия MIT. На бумаге Kimi выглядит лучше Qwen, но запустить его локально без квантизации до уровня «лишь бы поместилось» практически нереально на потребительском железе. После агрессивного кванта пограничные сценарии вылезают так же, как у Qwen.

Devstral Small 24B от Mistral заточен под агентные сценарии — multi-file edits, tool calling, циклы debug → fix. Он не выигрывает по сырому генеративному качеству, но в реальном workflow с aider или Claude Code-подобным интерфейсом часто оказывается удобнее.

Где локальные модели реально работают

После просеивания результатов сложилась довольно чёткая карта применимости:

Локальный Qwen точно справится с:

Скриптами на Python и JavaScript длиной до 300 строк
Шаблонными REST API, CRUD-операциями, парсингом данных
Юнит-тестами по существующему коду
Базовым рефакторингом с явными правилами
SQL-запросами с известной схемой

Локальный Qwen начнёт спотыкаться на:

Многофайловой архитектуре больше 50k токенов в контексте
Свежих API фреймворков, выпущенных после cutoff обучения (модели не знают про Next.js 16 и React 20)
Сложной отладке с трассировкой стека через 5+ функций
Архитектурных решениях — «как лучше разбить этот монолит»
Production-критичном коде, где ошибка в 2% генерации недопустима

Облако пока стабильно лучше там, где нужны свежие знания и многоуровневое рассуждение. Локальные модели — там, где нужны приватность, оффлайн или контроль расходов.

Подвох с латентностью

Отдельная история — скорость. Qwen 3.6-27B на 4090 выдаёт 25-35 ток/с в реальных условиях (с реальной длиной промпта 4-8k токенов плюс полный thinking). Это значит, что ответ на 500 токенов придёт через 15-20 секунд. Для асинхронного workflow «отправил задачу, занялся другим, вернулся через минуту» это нормально. Для IDE-автокомплита, где курсор ждёт ответа меньше секунды — категорически нет.

В IDE сценарии локалка пока работает только через Codestral 22B с поддержкой FIM (fill-in-the-middle): 60+ ток/с, ответ за полсекунды на коротких контекстах, специально натренирован для дополнения курсора. Qwen 3.6 такого режима не поддерживает.

Кому это всё имеет смысл

Если у вас есть 4090 и приватный код, который не должен утечь — Qwen 3.6-27B в Q4_K_M закрывает 75% задач. Это много. Это значит, что три из четырёх вопросов к Claude можно перестать гонять через API. Оставшиеся 25% — это сложные случаи, которые всё равно нужно показать сильной модели.

Если у вас 16 ГБ VRAM — берите Devstral Small 24B (16 ГБ) или Qwen 3.6 в Q3_K_S с оговоркой про потерю качества. На 8 ГБ — Qwen3 8B, для самых базовых задач.

Если приватность и оффлайн не критичны — облако пока всё ещё впереди по дельте 10-15 пунктов, что в production-коде иногда означает разницу между «работает» и «деплоить нельзя». Главное достижение Qwen 3.6 не в том, что он догнал фронтиры. А в том, что разрыв с фронтирами сократился настолько, что вопрос «где запускать модель?» перестал быть техническим — он стал вопросом приватности и денег.

Что дальше

Qwen 3.7 уже маячит на горизонте — судя по утечкам с китайских форумов, Alibaba обещает закрыть разрыв со SWE-bench frontier до 5 пунктов. DeepSeek работает над собственным coding-специализированным релизом. К концу 2026 локалка может реально дойти до уровня Claude Sonnet 4.6 — особенно если индустрия добавит MTP-головы в стандартный артефакт релиза. Пока — три из четырёх. Через год — посмотрим.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Qwen 3.6-27B локально кодит почти как фронтиры — но «почти» решает

Что мерили

Цифры

Что говорят другие бенчмарки

Где локальные модели реально работают

Подвох с латентностью

Кому это всё имеет смысл

Что дальше

Похожие новости

Локальные LLM для кодинга — реальные пределы 2026

Multi-Token Prediction приехал в llama.cpp: Qwen 3.6 разгоняется в 1.8 раза

Qwen3-Coder-Next оказалась не просто кодером