GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
qwenalibabaкодингбенчмаркиlocalllama

Qwen 3.5 проваливается на сложных задачах кодинга

Тестирование моделей Qwen 3.5 выявило резкое падение производительности на master-level задачах. ELO падает с 1550 до 1194 при переходе к сложному коду.

Влад МакаровВлад Макаровпроверил и опубликовал
2 мин чтения

Qwen 3.5 — одна из самых ожидаемых open-weight моделей 2026 года — показала неожиданную слабость: при переходе от экспертных задач к master-level кодингу её производительность обрушивается. Сообщество r/LocalLLaMA назвало это «cratering» — резкое нелинейное падение.

Что произошло

Независимое тестирование всех моделей серии Qwen 3.5 (включая флагманскую 397B) выявило тревожный паттерн. На экспертных задачах модель показывает отличные результаты с ELO около 1550, конкурируя с лучшими закрытыми моделями. Но стоит перейти к master-level задачам, требующим координации между десятками файлов, ELO проваливается до 1194.

Проблема проявляется конкретно: модель «теряет нить» при многошаговых реализациях. Она может исправить баг в одном файле, но забывает пропагировать изменения через зависимые модули — в результате проект не собирается.

На SWE-bench Verified Qwen 3.5 набирает 76.4% — достойный результат, но заметно ниже Claude Opus 4.6 (80.9%) и Codex 5.3. При этом на стандартных бенчмарках вроде MMLU и GPQA модель выглядит на уровне конкурентов.

Почему это важно

Дискуссия на Reddit (Score 458, 200 комментариев) выявила вероятную причину — архитектура MoE (Mixture of Experts). У Qwen 3.5 397 миллиардов параметров, но одновременно активны только 17 миллиардов. Это даёт скорость, но для кодинга, где нужно глубокое рассуждение и отслеживание длинных зависимостей, плотные модели типа GLM-4.7 (все параметры работают на каждый токен) справляются лучше.

Другими словами, MoE — отличная архитектура для быстрых ответов на общие вопросы, но она платит «налог на координацию» в масштабных инженерных проектах.

Что дальше

Alibaba пока не прокомментировала результаты тестов. Для тех, кто использует Qwen 3.5 локально, вывод простой: модель отлично справляется с одиночными задачами и экспертным кодингом, но для работы с большими кодовыми базами стоит присмотреться к Qwen3-Coder-Next или плотным альтернативам.

Похожие новости

Листайте вниз

для загрузки следующей статьи