llama-cppqwenлокальные-модели
Multi-Token Prediction приехал в llama.cpp: Qwen 3.6 разгоняется в 1.8 раза
PR #22673 с поддержкой MTP смержили в master 16 мая. На Qwen 3.6-27B декод не проседает на длинном контексте — 39-49 ток/с против 29 у обычного режима.
8 мин