Qwen3.5 9B против GPT-OSS 120B: Alibaba выпустила маленькие модели для запуска на устройстве
Alibaba выпустила серию Qwen3.5 Small — 4 модели от 0.8B до 9B параметров. 9B обходит OpenAI GPT-OSS 120B на ключевых бенчмарках, работая на обычном ноутбуке.

«Как это вообще возможно?!» — написал разработчик Paul Couvert, когда увидел характеристики новых моделей Alibaba. 4B-версия почти не уступает предыдущей 80B-модели. А 9B обошла GPT-OSS 120B от OpenAI, будучи в 13 раз меньше.
2 марта 2026 года команда Qwen анонсировала серию Qwen3.5 Small — четыре компактных модели с открытым кодом:
- Qwen3.5-0.8B и Qwen3.5-2B — для телефонов и самых лёгких edge-устройств, оптимизированы под скорость
- Qwen3.5-4B — мультимодальная база для локальных агентов, нативный контекст 262 тысячи токенов
- Qwen3.5-9B — компактная reasoning-модель, обходящая GPT-OSS 120B по ключевым бенчмаркам
Все четыре модели доступны под лицензией Apache 2.0 на Hugging Face и ModelScope — без роялти, с правом на коммерческое использование и доработку.
Архитектура: гибрид вместо стандартного трансформера
За эффективностью стоит нестандартный выбор архитектуры. Alibaba отказалась от классического трансформера в пользу Efficient Hybrid Architecture, которая объединяет Gated Delta Networks (форма линейного внимания) с разреженными MoE-слоями.
Gated Delta Networks решают проблему «стены памяти», с которой обычно сталкиваются малые модели: модель активирует только нужные части сети для каждой задачи, а не всю сеть целиком. Это даёт более высокую пропускную способность и существенно снижает задержку при инференсе.
Другое принципиальное решение — нативная мультимодальность. Предыдущие поколения добавляли понимание изображений поверх текстовой модели. Qwen3.5 обучалась с ранним слиянием мультимодальных токенов, поэтому 4B и 9B понимают UI-элементы, видео и документы на уровне, который раньше требовал модели в 10 раз большего размера.
Что показывают бенчмарки
Результаты непривычные для моделей такого размера:
| Бенчмарк | Qwen3.5-9B | Qwen3.5-4B | GPT-OSS 120B | Gemini 2.5 Flash-Lite |
|---|---|---|---|---|
| GPQA Diamond | 81.7 | — | 80.1 | — |
| MMMU-Pro (визуал) | 70.1 | — | — | 59.7 |
| Video-MME (с субтитрами) | 84.5 | 83.5 | — | 74.6 |
| HMMT Feb 2025 (математика) | 83.2 | 74.0 | — | — |
| MMMLU (мультиязычные знания) | 81.2 | — | 78.2 | — |
На GPQA Diamond — бенчмарке уровня аспирантуры в точных науках — 9B-модель превзошла OpenAI GPT-OSS 120B, которая в 13 раз больше. На Video-MME обе модели значительно опережают Gemini 2.5 Flash-Lite.
Кто сможет запустить
Разработчик Karan Kendre запустил новые модели на M1 MacBook Air бесплатно. Команда Xenova продемонстрировала работу прямо в браузере, включая анализ видео.
0.8B и 2B ориентированы на смартфоны. 4B и 9B комфортно работают на любом современном ноутбуке с достаточным объёмом RAM. Для 9B в режиме высокой нагрузки нужна видеокарта, но требования всё равно несопоставимо скромнее, чем у облачных решений аналогичного качества.
Особо разработчики отметили выпуск Base-моделей вместе с Instruct-версиями. Base-модели дают чистую точку старта для дообучения под конкретные задачи — без необходимости «бороться» с заложенными стилем ответов и фильтрами.
Что это значит для разработчиков
Небольшие модели всегда проигрывали большим в качестве рассуждений. Именно поэтому локальный AI долгое время воспринимался как компромисс — быстро, дёшево, но хуже.
Qwen3.5 Small переворачивает эту логику. Когда 9B-модель обходит 120B-конкурента по математике и мультиязычным знаниям, граница «облако vs локально» перестаёт быть границей качества.
Для мобильных разработчиков особенно важна 4B с нативным пониманием UI: теперь можно строить агентов, которые читают экран и управляют приложениями, без обращения к серверу. Офлайн, без задержки сети, без расходов на API.
Alibaba продолжает тактику открытой экспансии — выпускать сильные модели под Apache 2.0, пока американские лаборатории конкурируют в закрытом сегменте. Для экосистемы open-source это очередной рывок вперёд.


