Qwen 3.6-35B-A3B: 3 млрд активных параметров, 73.4% SWE-Bench и Apache 2.0
Alibaba открыла веса Qwen 3.6-35B-A3B — sparse MoE с 256 экспертами и 3B активных параметров. Модель берёт 73.4% на SWE-Bench Verified, 262K контекста (до 1M с YaRN) и бесплатна для коммерции.

Alibaba открыла веса модели, которая на SWE-Bench Verified выдаёт 73.4% — цифру, за которую OpenAI берёт $25 за миллион выходных токенов. Qwen 3.6-35B-A3B лицензирована под Apache 2.0, влезает на одну H100 с квантизацией и запускается локально на MacBook M3 Max. Это не «ещё одна китайская модель» — это заявка на то, что фронтир-кодинг выходит из закрытых API в открытый доступ.
Архитектура: 35 миллиардов параметров, 3 миллиарда активных
Главный трюк — sparse Mixture of Experts. Модель имеет 35 миллиардов параметров «на диске», но в каждом токене активирует только 3 миллиарда. Работает это так: на каждом слое стоит роутер, который выбирает 8 экспертов из 256 плюс один «общий» эксперт, который работает всегда. Остальные 248 спят.
Результат — модель по качеству близка к 35B dense, а по скорости инференса ближе к 3B. На H100 она выдаёт в 4–5 раз больше токенов в секунду, чем Qwen 2.5-32B при сопоставимом качестве на задачах кодинга.
40-слойная архитектура устроена нетипично. Три слоя Gated DeltaNet (это линейное внимание, O(N) вместо O(N²)) чередуются с одним слоем классического Gated Attention. Такая мозаика снижает стоимость длинного контекста — но не ценой деградации качества на сложных задачах, где квадратичное внимание всё-таки работает лучше.
Контекст и языковая поддержка
Нативно модель держит 262,144 токена. Это уже много — больше, чем у GPT-5 API по умолчанию. Но с техникой YaRN rope scaling контекст расширяется до ~1,010,000 токенов. На длинных документах качество падает, но не драматично — на «needle in a haystack» тестах до 500K модель находит факты стабильно.
Поддержка языков — 119, включая русский. На русскоязычных задачах модель сопоставима с GPT-4 Turbo, по мнению ранних тестировщиков, и заметно обходит Llama 4.
Бенчмарки: где Qwen обходит закрытых конкурентов
Цифры, которые заявил Qwen Team, выделяют модель из всего текущего open-source рынка.
| Бенчмарк | Qwen 3.6-35B-A3B | Qwen 3.5-35B-A3B | Gemma 4-31B |
|---|---|---|---|
| SWE-Bench Verified | 73.4 | 70.0 | 52.0 |
| AIME 2026 (матем.) | 92.7 | 88.1 | 79.3 |
| GPQA Diamond | 86.0 | 82.4 | 71.8 |
SWE-Bench Verified 73.4% — это цифра, которая ставит Qwen 3.6 в плотную группу с закрытыми моделями фронтира. Claude Sonnet 4.5 выдаёт там около 75%, GPT-5 — около 72%. Разрыв измеряется единицами процентов, а не разами.
На AIME 2026 — американской математической олимпиаде — модель берёт 92.7%. Это уровень, которым ещё год назад могли похвастаться только o1 и Claude Opus. Сегодня это открытые веса под Apache 2.0.
Что это значит на практике
Apache 2.0 — это важнейшая деталь. Лицензия разрешает коммерческое использование без ограничений: встраивать в продукт, перепродавать инференс, делать fine-tune и публиковать результаты. Никаких «запрещено использовать, если у вас больше 700M пользователей» (как у Llama). Никаких согласований с правообладателем. Скачал — используй.
Для стартапа, который раньше платил OpenAI $50K в месяц за инференс кодинг-агента, это прямая экономия. Qwen 3.6-35B-A3B в квантизации INT4 помещается на одну H100 (~40GB VRAM) и выдаёт 80+ токенов в секунду. Аренда H100 — $2/час. Стоимость миллиона выходных токенов — около $0.07. У OpenAI на сопоставимой по качеству модели — в 300 раз дороже.
Развёртывание тоже простое. Модель поддерживает все основные стеки: vLLM, SGLang, KTransformers, стандартный Transformers. Есть готовые Docker-образы. Для локальной работы хватит MacBook M3 Max с 64GB unified memory — модель в 4-битной квантизации займёт около 20GB.
Почему Alibaba это делает
Логика Alibaba в open source хорошо просматривается через серию Qwen. Компания не монетизирует веса напрямую — они бесплатны. Монетизация идёт через Alibaba Cloud: кто поднимает Qwen на продакшене, скорее всего, делает это на Qwen Max API или Aliyun GPU-инстансах.
Плюс — политический компонент. Китайские регуляторы поощряют open source как способ снижения зависимости от американских API. Meta, DeepSeek, Qwen, Moonshot, Z.AI — основные двигатели открытого фронтира за последние 18 месяцев. Все они заметно ускорились после того, как OpenAI и Anthropic начали закручивать API для китайских клиентов.
Что это меняет на рынке
За 2026 год разрыв между закрытыми и открытыми моделями сокращался не месяцами, а неделями. В январе казалось, что GPT-5 создаёт устойчивое лидерство на 12–18 месяцев. В апреле открытая модель китайской компании выбивает 73.4% на SWE-Bench — показатель, который требует или гигантского препрограмма, или серьёзной пост-тренировки, и в любом случае — больших денег.
Это не конец закрытых моделей. Claude Opus 4.7 и GPT-Rosalind держат лидерство в нишах, где Qwen пока не играет: длинные агентные сессии, специализированный ризонинг, мультимодальность с видео. Но «базовая модель для кодинга на продакшене» — это больше не обязательно OpenAI или Anthropic. Это может быть Qwen, который вы сами хостите и который вам никто не отключит.
Для AI-стартапов это делает выбор проще. Если единственная причина использовать закрытый API — это качество на бенчмарках, стоит перемерить. Если причина — SLA, комплаенс, поддержка — остаёмся с Anthropic и OpenAI. Если причина — цена и контроль — ставим Qwen.


