GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
alibabaqwenopen-sourcemoeswe-benchapache-2.0

Qwen 3.6-35B-A3B: 3 млрд активных параметров, 73.4% SWE-Bench и Apache 2.0

Alibaba открыла веса Qwen 3.6-35B-A3B — sparse MoE с 256 экспертами и 3B активных параметров. Модель берёт 73.4% на SWE-Bench Verified, 262K контекста (до 1M с YaRN) и бесплатна для коммерции.

Влад МакаровВлад Макаровпроверил и опубликовал
8 мин чтения
Qwen 3.6-35B-A3B: 3 млрд активных параметров, 73.4% SWE-Bench и Apache 2.0

Alibaba открыла веса модели, которая на SWE-Bench Verified выдаёт 73.4% — цифру, за которую OpenAI берёт $25 за миллион выходных токенов. Qwen 3.6-35B-A3B лицензирована под Apache 2.0, влезает на одну H100 с квантизацией и запускается локально на MacBook M3 Max. Это не «ещё одна китайская модель» — это заявка на то, что фронтир-кодинг выходит из закрытых API в открытый доступ.

Архитектура: 35 миллиардов параметров, 3 миллиарда активных

Главный трюк — sparse Mixture of Experts. Модель имеет 35 миллиардов параметров «на диске», но в каждом токене активирует только 3 миллиарда. Работает это так: на каждом слое стоит роутер, который выбирает 8 экспертов из 256 плюс один «общий» эксперт, который работает всегда. Остальные 248 спят.

Результат — модель по качеству близка к 35B dense, а по скорости инференса ближе к 3B. На H100 она выдаёт в 4–5 раз больше токенов в секунду, чем Qwen 2.5-32B при сопоставимом качестве на задачах кодинга.

40-слойная архитектура устроена нетипично. Три слоя Gated DeltaNet (это линейное внимание, O(N) вместо O(N²)) чередуются с одним слоем классического Gated Attention. Такая мозаика снижает стоимость длинного контекста — но не ценой деградации качества на сложных задачах, где квадратичное внимание всё-таки работает лучше.

Контекст и языковая поддержка

Нативно модель держит 262,144 токена. Это уже много — больше, чем у GPT-5 API по умолчанию. Но с техникой YaRN rope scaling контекст расширяется до ~1,010,000 токенов. На длинных документах качество падает, но не драматично — на «needle in a haystack» тестах до 500K модель находит факты стабильно.

Поддержка языков — 119, включая русский. На русскоязычных задачах модель сопоставима с GPT-4 Turbo, по мнению ранних тестировщиков, и заметно обходит Llama 4.

Бенчмарки: где Qwen обходит закрытых конкурентов

Цифры, которые заявил Qwen Team, выделяют модель из всего текущего open-source рынка.

БенчмаркQwen 3.6-35B-A3BQwen 3.5-35B-A3BGemma 4-31B
SWE-Bench Verified73.470.052.0
AIME 2026 (матем.)92.788.179.3
GPQA Diamond86.082.471.8

SWE-Bench Verified 73.4% — это цифра, которая ставит Qwen 3.6 в плотную группу с закрытыми моделями фронтира. Claude Sonnet 4.5 выдаёт там около 75%, GPT-5 — около 72%. Разрыв измеряется единицами процентов, а не разами.

На AIME 2026 — американской математической олимпиаде — модель берёт 92.7%. Это уровень, которым ещё год назад могли похвастаться только o1 и Claude Opus. Сегодня это открытые веса под Apache 2.0.

Что это значит на практике

Apache 2.0 — это важнейшая деталь. Лицензия разрешает коммерческое использование без ограничений: встраивать в продукт, перепродавать инференс, делать fine-tune и публиковать результаты. Никаких «запрещено использовать, если у вас больше 700M пользователей» (как у Llama). Никаких согласований с правообладателем. Скачал — используй.

Для стартапа, который раньше платил OpenAI $50K в месяц за инференс кодинг-агента, это прямая экономия. Qwen 3.6-35B-A3B в квантизации INT4 помещается на одну H100 (~40GB VRAM) и выдаёт 80+ токенов в секунду. Аренда H100 — $2/час. Стоимость миллиона выходных токенов — около $0.07. У OpenAI на сопоставимой по качеству модели — в 300 раз дороже.

Развёртывание тоже простое. Модель поддерживает все основные стеки: vLLM, SGLang, KTransformers, стандартный Transformers. Есть готовые Docker-образы. Для локальной работы хватит MacBook M3 Max с 64GB unified memory — модель в 4-битной квантизации займёт около 20GB.

Почему Alibaba это делает

Логика Alibaba в open source хорошо просматривается через серию Qwen. Компания не монетизирует веса напрямую — они бесплатны. Монетизация идёт через Alibaba Cloud: кто поднимает Qwen на продакшене, скорее всего, делает это на Qwen Max API или Aliyun GPU-инстансах.

Плюс — политический компонент. Китайские регуляторы поощряют open source как способ снижения зависимости от американских API. Meta, DeepSeek, Qwen, Moonshot, Z.AI — основные двигатели открытого фронтира за последние 18 месяцев. Все они заметно ускорились после того, как OpenAI и Anthropic начали закручивать API для китайских клиентов.

Что это меняет на рынке

За 2026 год разрыв между закрытыми и открытыми моделями сокращался не месяцами, а неделями. В январе казалось, что GPT-5 создаёт устойчивое лидерство на 12–18 месяцев. В апреле открытая модель китайской компании выбивает 73.4% на SWE-Bench — показатель, который требует или гигантского препрограмма, или серьёзной пост-тренировки, и в любом случае — больших денег.

Это не конец закрытых моделей. Claude Opus 4.7 и GPT-Rosalind держат лидерство в нишах, где Qwen пока не играет: длинные агентные сессии, специализированный ризонинг, мультимодальность с видео. Но «базовая модель для кодинга на продакшене» — это больше не обязательно OpenAI или Anthropic. Это может быть Qwen, который вы сами хостите и который вам никто не отключит.

Для AI-стартапов это делает выбор проще. Если единственная причина использовать закрытый API — это качество на бенчмарках, стоит перемерить. Если причина — SLA, комплаенс, поддержка — остаёмся с Anthropic и OpenAI. Если причина — цена и контроль — ставим Qwen.

Похожие новости

Листайте вниз

для загрузки следующей статьи