GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
qwenlocalllamavllmконтекстrtx-3090локальный-ai

170 тысяч токенов при 100 t/s: Qwen3.5 27B на двух RTX 3090

Пользователь LocalLLaMA запустил Qwen3.5 27B dense с 170K контекстом на двух RTX 3090 через vLLM — 100+ t/s decode, 1500 t/s prefill, 8 параллельных пользователей.

Влад МакаровВлад Макаровпроверил и опубликовал
2 мин чтения

607 голосов на LocalLLaMA — редкость для технического поста. Но когда разработчик пишет, что гоняет Qwen3.5 27B c 170 тысячами токенов контекста при скорости 100+ t/s на декодировании, реакция очевидна.

Что произошло

Пользователь LocalLLaMA запустил Qwen3.5-27B dense через vLLM с тензорным параллелизмом на двух RTX 3090. NVLink между картами — ключевой фактор: тензорный параллелизм значительно выигрывает от высокоскоростного межкарточного соединения.

Результаты:

  • Декодирование: 100+ токенов в секунду
  • Префилл: ~1500 токенов в секунду
  • Пропускная способность: 585 t/s при 8 одновременных пользователях
  • Контекст: 170 тысяч токенов

Для сравнения: модель Qwen3.5-27B на Hugging Face поддерживает до 262 144 токенов контекстного окна. 170K — около 65% от максимума, и всё это на двух RTX 3090 стоимостью примерно $800-900 за штуку.

Почему это важно

Qwen3.5-27B вышла 24 февраля 2026 года. Это dense-модель (не MoE), мультимодальная, с поддержкой текста, изображений и видео. В облаке такой контекст стоит денег — каждый запрос на 170K токенов обходится в несколько долларов у большинства провайдеров.

На двух 3090 с NVLink это работает локально, бесплатно, без ограничений TPM, без отправки данных наружу.

Что дальше

Следующий практический вопрос — квантизация. В полном BF16 27B занимает около 54 ГБ VRAM, что как раз вписывается в 48 ГБ двух 3090. С INT4-квантизацией модель поместится на одну карту, но скорость при большом контексте упадёт. Сообщество уже тестирует разные стратегии квантизации с сохранением качества рассуждений.

Пост стал инструкцией по запуску для десятков разработчиков: vLLM, tensor-parallel на 2+ GPU, NVLink, флаги оптимизации вроде --enable-chunked-prefill. Комментарии заполнены вопросами о конфигурации и ответами с конкретными настройками.

Похожие новости

Листайте вниз

для загрузки следующей статьи