128 ГБ видеопамяти за $5200: как собрать локальный AI-сервер на AMD R9700
Четыре видеокарты AMD Radeon AI PRO R9700 дают 128 ГБ VRAM для запуска крупных LLM локально. Разбираем бенчмарки и сравниваем с NVIDIA.

NVIDIA RTX 5090 с 32 ГБ памяти стоит $2000 и требует охоты за дропами. AMD предлагает альтернативу: Radeon AI PRO R9700 с теми же 32 ГБ за $1299, причём карты есть в наличии. А если поставить четыре штуки — получится 128 ГБ VRAM за $5200, достаточно для запуска DeepSeek R1 70B или Llama 3.1 70B в полном качестве.
Характеристики R9700
AMD Radeon AI PRO R9700 — это видеокарта на архитектуре RDNA 4, спроектированная специально для AI-задач. Главное преимущество — 32 ГБ GDDR6, что вдвое больше, чем у потребительских карт того же ценового сегмента.
Технические характеристики:
- VRAM: 32 ГБ GDDR6
- Архитектура: AMD RDNA 4
- Интерфейс: 4× DisplayPort
- Цена: $1299 MSRP
- Поддержка: ROCm 6.4.2, PyTorch, vLLM
Карта не требует водяного охлаждения и помещается в стандартный корпус. Производители — ASRock, ASUS, Gigabyte, PowerColor, Sapphire, XFX. В отличие от RTX 5090, R9700 есть в наличии у ретейлеров.
Бенчмарки: одна карта
Level1Techs провёл тестирование R9700 против RTX 5090 на различных моделях. Результаты показывают, что AMD конкурентоспособна на моделях, которые помещаются в 32 ГБ, и значительно выигрывает на моделях больше 16 ГБ — там, где RTX 5080 вообще не справляется.
| Модель | R9700 (32GB) | RTX 5080 (16GB) | Разница |
|---|---|---|---|
| Phi 3.5 MoE Q4 | 100% | 100% | — |
| Mistral Small 3.1 24B Q8 | 361% | 100% | +261% |
| DeepSeek R1 Distill Qwen 32B Q6 | 437% | 100% | +337% |
| Qwen 3 32B Q6 | 454% | 100% | +354% |
| Qwen 3 32B Q6 (long prompt) | 496% | 100% | +396% |
На моделях 24-32B, которые не помещаются в 16 ГБ RTX 5080, R9700 показывает до 5× преимущество. Это логично: когда модель не влезает в VRAM, часть слоёв выгружается в системную память, что критически замедляет инференс.
Бенчмарки: две карты
Добавление второй R9700 даёт 64 ГБ VRAM и прирост скорости 68-80% на моделях, которые распределяются между GPU. В vLLM слои автоматически распределяются между картами.
Фото: AMD
«Это 68-80% прирост скорости при добавлении второго GPU, плюс вы удваиваете VRAM.» — Wendell, Level1Techs
На полностью оптимизированной конфигурации с двумя R9700 удалось достичь 150+ токенов в секунду, используя каждый байт видеопамяти на обеих картах. Из коробки — около 120 токенов/сек.
Четыре карты: 128 ГБ VRAM
Сообщество Level1Techs описало конфигурацию с четырьмя R9700, дающую 128 ГБ VRAM. Этого достаточно для:
- DeepSeek R1 70B в Q6 квантизации
- Llama 3.1 70B в полном качестве
- Mixtral 8x22B
- Qwen 72B
Для такой сборки нужна материнская плата с поддержкой четырёх PCIe x16 слотов. В тестах Level1Techs использовалась система Falcon Northwest Talon на Threadripper 9995WX с 768 ГБ RAM — это overkill для большинства задач, но демонстрирует потенциал платформы.
Расчёт стоимости:
- 4× AMD R9700: $5196
- 1× RTX 5090 (32GB): ~$2000
- 2× RTX 5090 (64GB): ~$4000
За цену двух RTX 5090 можно получить вдвое больше видеопамяти на AMD. Компромисс — меньшая скорость на моделях, которые помещаются в 32 ГБ, и необходимость работать с ROCm вместо CUDA.
ROCm и совместимость
Главный вопрос с AMD — софтверная экосистема. CUDA доминирует в ML, и многие библиотеки оптимизированы под NVIDIA. AMD предлагает ROCm как альтернативу, но исторически его поддержка была проблемной.
С R9700 ситуация улучшилась. По словам Wendell из Level1Techs, ComfyUI и ROCm заработали «из коробки» благодаря недавним обновлениям. PyTorch поддерживается через ROCm 6.4.2. vLLM работает с распределением слоёв между GPU.
Vulkan backend в LM Studio показывает хорошие результаты на Windows — это важно для тех, кто не хочет настраивать Linux.
Кому подойдёт
R9700 — это решение для тех, кому нужен большой объём VRAM по разумной цене и кто готов работать с ROCm вместо CUDA. Типичные сценарии:
Локальный инференс крупных моделей — если вы хотите запускать 70B модели без облака, 128 ГБ на четырёх R9700 это самый доступный путь. Альтернатива — серверные GPU типа A100/H100, которые стоят в разы дороже.
Разработка и эксперименты — для тех, кто тестирует разные модели и хочет гибкости по памяти. VRAM — главный ограничитель в локальном AI.
Не подойдёт тем, кто работает с CUDA-only библиотеками или нуждается в максимальной скорости на небольших моделях — там NVIDIA остаётся впереди.
Где купить
R9700 доступен у большинства крупных ретейлеров: Amazon, Newegg, B&H Photo в США, Alternate и Caseking в Европе. В отличие от RTX 5090, дефицита нет — карты лежат на полках.

