170 тысяч токенов при 100 t/s: Qwen3.5 27B на двух RTX 3090
Пользователь LocalLLaMA запустил Qwen3.5 27B dense с 170K контекстом на двух RTX 3090 через vLLM — 100+ t/s decode, 1500 t/s prefill, 8 параллельных пользователей.
607 голосов на LocalLLaMA — редкость для технического поста. Но когда разработчик пишет, что гоняет Qwen3.5 27B c 170 тысячами токенов контекста при скорости 100+ t/s на декодировании, реакция очевидна.
Что произошло
Пользователь LocalLLaMA запустил Qwen3.5-27B dense через vLLM с тензорным параллелизмом на двух RTX 3090. NVLink между картами — ключевой фактор: тензорный параллелизм значительно выигрывает от высокоскоростного межкарточного соединения.
Результаты:
- Декодирование: 100+ токенов в секунду
- Префилл: ~1500 токенов в секунду
- Пропускная способность: 585 t/s при 8 одновременных пользователях
- Контекст: 170 тысяч токенов
Для сравнения: модель Qwen3.5-27B на Hugging Face поддерживает до 262 144 токенов контекстного окна. 170K — около 65% от максимума, и всё это на двух RTX 3090 стоимостью примерно $800-900 за штуку.
Почему это важно
Qwen3.5-27B вышла 24 февраля 2026 года. Это dense-модель (не MoE), мультимодальная, с поддержкой текста, изображений и видео. В облаке такой контекст стоит денег — каждый запрос на 170K токенов обходится в несколько долларов у большинства провайдеров.
На двух 3090 с NVLink это работает локально, бесплатно, без ограничений TPM, без отправки данных наружу.
Что дальше
Следующий практический вопрос — квантизация. В полном BF16 27B занимает около 54 ГБ VRAM, что как раз вписывается в 48 ГБ двух 3090. С INT4-квантизацией модель поместится на одну карту, но скорость при большом контексте упадёт. Сообщество уже тестирует разные стратегии квантизации с сохранением качества рассуждений.
Пост стал инструкцией по запуску для десятков разработчиков: vLLM, tensor-parallel на 2+ GPU, NVLink, флаги оптимизации вроде --enable-chunked-prefill. Комментарии заполнены вопросами о конфигурации и ответами с конкретными настройками.
