Qwen3.5 9B против GPT-OSS 120B: Alibaba выпустила маленькие модели для запуска на устройстве

Alibaba выпустила серию Qwen3.5 Small — 4 модели от 0.8B до 9B параметров. 9B обходит OpenAI GPT-OSS 120B на ключевых бенчмарках, работая на обычном ноутбуке.

«Как это вообще возможно?!» — написал разработчик Paul Couvert, когда увидел характеристики новых моделей Alibaba. 4B-версия почти не уступает предыдущей 80B-модели. А 9B обошла GPT-OSS 120B от OpenAI, будучи в 13 раз меньше.

2 марта 2026 года команда Qwen анонсировала серию Qwen3.5 Small — четыре компактных модели с открытым кодом:

Qwen3.5-0.8B и Qwen3.5-2B — для телефонов и самых лёгких edge-устройств, оптимизированы под скорость
Qwen3.5-4B — мультимодальная база для локальных агентов, нативный контекст 262 тысячи токенов
Qwen3.5-9B — компактная reasoning-модель, обходящая GPT-OSS 120B по ключевым бенчмаркам

Все четыре модели доступны под лицензией Apache 2.0 на Hugging Face и ModelScope — без роялти, с правом на коммерческое использование и доработку.

Архитектура: гибрид вместо стандартного трансформера

За эффективностью стоит нестандартный выбор архитектуры. Alibaba отказалась от классического трансформера в пользу Efficient Hybrid Architecture, которая объединяет Gated Delta Networks (форма линейного внимания) с разреженными MoE-слоями.

Gated Delta Networks решают проблему «стены памяти», с которой обычно сталкиваются малые модели: модель активирует только нужные части сети для каждой задачи, а не всю сеть целиком. Это даёт более высокую пропускную способность и существенно снижает задержку при инференсе.

Другое принципиальное решение — нативная мультимодальность. Предыдущие поколения добавляли понимание изображений поверх текстовой модели. Qwen3.5 обучалась с ранним слиянием мультимодальных токенов, поэтому 4B и 9B понимают UI-элементы, видео и документы на уровне, который раньше требовал модели в 10 раз большего размера.

Что показывают бенчмарки

Результаты непривычные для моделей такого размера:

Бенчмарк	Qwen3.5-9B	Qwen3.5-4B	GPT-OSS 120B	Gemini 2.5 Flash-Lite
GPQA Diamond	81.7	—	80.1	—
MMMU-Pro (визуал)	70.1	—	—	59.7
Video-MME (с субтитрами)	84.5	83.5	—	74.6
HMMT Feb 2025 (математика)	83.2	74.0	—	—
MMMLU (мультиязычные знания)	81.2	—	78.2	—

На GPQA Diamond — бенчмарке уровня аспирантуры в точных науках — 9B-модель превзошла OpenAI GPT-OSS 120B, которая в 13 раз больше. На Video-MME обе модели значительно опережают Gemini 2.5 Flash-Lite.

Кто сможет запустить

Разработчик Karan Kendre запустил новые модели на M1 MacBook Air бесплатно. Команда Xenova продемонстрировала работу прямо в браузере, включая анализ видео.

0.8B и 2B ориентированы на смартфоны. 4B и 9B комфортно работают на любом современном ноутбуке с достаточным объёмом RAM. Для 9B в режиме высокой нагрузки нужна видеокарта, но требования всё равно несопоставимо скромнее, чем у облачных решений аналогичного качества.

Особо разработчики отметили выпуск Base-моделей вместе с Instruct-версиями. Base-модели дают чистую точку старта для дообучения под конкретные задачи — без необходимости «бороться» с заложенными стилем ответов и фильтрами.

Что это значит для разработчиков

Небольшие модели всегда проигрывали большим в качестве рассуждений. Именно поэтому локальный AI долгое время воспринимался как компромисс — быстро, дёшево, но хуже.

Qwen3.5 Small переворачивает эту логику. Когда 9B-модель обходит 120B-конкурента по математике и мультиязычным знаниям, граница «облако vs локально» перестаёт быть границей качества.

Для мобильных разработчиков особенно важна 4B с нативным пониманием UI: теперь можно строить агентов, которые читают экран и управляют приложениями, без обращения к серверу. Офлайн, без задержки сети, без расходов на API.

Alibaba продолжает тактику открытой экспансии — выпускать сильные модели под Apache 2.0, пока американские лаборатории конкурируют в закрытом сегменте. Для экосистемы open-source это очередной рывок вперёд.