216 ГБ VRAM на тесте: какая конфигурация GPU лучше для локальных LLM
Энтузиаст из сообщества LocalLLaMA протестировал конфигурации из б/у Tesla GPU. Результаты вызвали споры о пропускной способности и охлаждении.
В сообществе r/LocalLLaMA появился пост, набравший 344 апвоута и 96 комментариев: энтузиаст собрал тестовый стенд на 216 ГБ VRAM из б/у Tesla GPU и разработал бенчмарк-сьют для оценки производительности параллельных конфигураций.
Что произошло
Автор тестирует подержанные Tesla GPU — они предлагают большой объём VRAM по низкой цене. Главный вопрос: насколько хорошо бюджетные карты справляются с задачами локального инференса в сравнении с современными решениями?
Бенчмарк проверяет производительность при параллельной работе нескольких GPU — ключевой сценарий для запуска крупных моделей вроде Llama 70B или DeepSeek MoE локально.
Основные GPU в сравнении
Дискуссия в комментариях выявила несколько интересных наблюдений.
Tesla P40 показывает лучшие результаты, чем M10, несмотря на то что обе карты относятся к старому поколению. Один из участников делится опытом работы с AMD Instinct Mi50 — по производительности они не уступают, но недавно потеряли поддержку в ROCm, что создаёт проблемы с программным обеспечением.
Ключевое ограничение — пропускная способность шины. Большинство доступных серверных материнских плат поддерживают лишь несколько GPU с полноценным подключением PCIe. При установке 6-8 карт часть из них работает через PCIe x4 или x8, что ограничивает скорость передачи данных между CPU и GPU.
Критика методологии
Комментаторы отмечают пробел в бенчмарке: он не тестирует сценарий, когда крупная модель разделена между несколькими GPU. А ведь это основной юзкейс для конфигураций с большим VRAM — запуск моделей, которые не помещаются на одной карте.
Охлаждение — ещё одна проблема. Tesla GPU проектировались для серверных стоек с мощным потоком воздуха, а не для десктопных корпусов. В домашних условиях они быстро перегреваются.
Почему это важно
Для энтузиастов локального AI конфигурация «много дешёвых GPU» — привлекательная альтернатива одной RTX 4090 или аренде облачных ресурсов. За цену пары современных карт можно собрать систему с 200+ ГБ VRAM и запускать модели без ограничений квантизации.
Но дешёвое железо приносит компромиссы: устаревшие архитектуры, проблемы с драйверами, сложности с охлаждением и пропускной способностью. Бенчмарки вроде этого помогают сообществу понять, где проходит грань между экономией и практичностью.
Что дальше
Автор планирует расширить тесты на сценарии с разделением моделей между GPU и добавить сравнение с потребительскими картами. Сообщество ждёт результатов — они помогут определить оптимальную конфигурацию для домашнего AI-сервера в 2026 году.
