DDR5 RDIMM дешевле RTX 3090 — переломный момент для локального AI
Цены на серверную память DDR5 RDIMM упали настолько, что набрать 768 ГБ RAM для инференса LLM стало дешевле покупки GPU. Разбираем математику и реальный опыт.

Год назад идея запустить DeepSeek R1 на 671 миллиард параметров у себя дома звучала как фантазия. Сегодня на Reddit сообщество r/LocalLLaMA обсуждает конфигурации за $600–800, на которых это реально работает — и ключевой компонент здесь не видеокарта, а обычная серверная память DDR5 RDIMM. Пост набрал 442 апвоута и 195 комментариев, и судя по тону дискуссии, многие восприняли это как переломный момент.
Что изменилось в ценах
Ещё в 2024 году модуль DDR5 RDIMM на 128 ГБ стоил порядка $400–500. К февралю 2026-го цены обвалились: планки DDR5-4800 RDIMM на 64 ГБ продаются за $55–70 на вторичном рынке, а 128 ГБ модули — за $120–180. Это примерно $1–1.4 за гигабайт серверной памяти с ECC.
Для сравнения: RTX 3090 с 24 ГБ VRAM на вторичке стоит около $700–900. Это $29–37 за гигабайт видеопамяти GDDR6X. Разница — в 25–30 раз. Даже если учесть, что GPU-память значительно быстрее, экономика складывается не в пользу видеокарт, когда речь заходит о больших моделях.
Набрать 768 ГБ DDR5 на платформе с двухсокетным AMD EPYC можно за $700–1000 за саму память. Серверная материнская плата и пара б/у процессоров EPYC 7003/9004 на вторичке добавят ещё $500–800. Итого: полноценная система с 768 ГБ RAM — примерно за $1200–1800. За те же деньги можно купить одну RTX 3090 с её 24 ГБ.
Математика инференса на CPU
Главный аргумент противников CPU-инференса — скорость. И здесь нужно говорить честно: да, это медленнее. Значительно медленнее.
RTX 3090 обеспечивает пропускную способность памяти около 936 ГБ/с (GDDR6X). Один модуль DDR5-4800 RDIMM — порядка 38 ГБ/с. Но серверный процессор EPYC с 12 каналами памяти агрегирует это до 460 ГБ/с, а в двухсокетной конфигурации — до 920 ГБ/с. Неожиданно близко к RTX 3090 по пропускной способности, но с 32-кратным преимуществом по объёму.
На практике пользователи llama.cpp сообщают о реальных результатах: DeepSeek R1 671B в квантизации Q5_K_S на двух EPYC 9654 выдаёт 4–5 токенов в секунду. Это не молниеносно, но вполне читаемо — примерно как медленный собеседник в чате. Для моделей поменьше цифры интереснее: Llama 70B в Q4 на одном EPYC генерирует 8–12 токенов в секунду.
AMD недавно продемонстрировала свою технологию PARD (Parallel Draft Models) на процессорах EPYC 9755, достигнув 380 токенов в секунду на Llama 3.1 8B. Это уже быстрее, чем большинство облачных API.
Зачем кому-то 768 ГБ RAM
Ответ прост: чтобы запустить то, что не влезает в GPU. Полная модель DeepSeek R1 671B в формате Q5 занимает около 462 ГБ. Ни одна потребительская видеокарта не имеет столько памяти. Даже связка из четырёх RTX 3090 даёт всего 96 ГБ VRAM — в пять раз меньше необходимого.
| Модель | Размер (Q4/Q5) | Нужно VRAM/RAM | RTX 3090 (шт.) | DDR5 RDIMM (стоимость) |
|---|---|---|---|---|
| Llama 70B Q4 | ~40 ГБ | 48 ГБ | 2 (~$1600) | 64 ГБ (~$70) |
| Qwen 3.5 397B Q4 | ~220 ГБ | 256 ГБ | 11 (~$8800) | 256 ГБ (~$350) |
| DeepSeek R1 671B Q5 | ~462 ГБ | 512 ГБ | 22 (~$17600) | 512 ГБ (~$700) |
| DeepSeek V4 Q4 | ~550 ГБ | 640 ГБ | 27 (~$21600) | 768 ГБ (~$1000) |
Цифры говорят сами за себя. Конечно, сравнение не совсем корректное — GPU-инференс будет в 5–10 раз быстрее. Но если выбор стоит между «запустить модель медленно дома» и «не запустить вообще», многие выберут первое.
Для кого это имеет смысл
Сообщество LocalLLaMA разделилось. Часть пользователей справедливо указывает на то, что 4–5 токенов в секунду на 671B — это «бесполезно медленно». Для интерактивного чата — возможно. Но есть сценарии, где скорость не критична.
Пакетная обработка документов, генерация синтетических данных, автоматический код-ревью ночью, анализ больших текстов — всё это может работать асинхронно. Запустил задачу перед сном, утром получил результат. При стоимости системы в $1500–2000 и нулевых текущих расходах на API это окупается за несколько месяцев активного использования.
Второй аргумент — приватность. Для компаний, работающих с конфиденциальными данными, локальный инференс на CPU снимает вопросы о передаче информации третьим сторонам. А если вспомнить недавние обсуждения утечек данных через облачные AI-провайдеры, мотивация становится ещё понятнее.
Подводные камни
Было бы нечестно не упомянуть сложности. Серверные платформы шумные — двухсокетный EPYC с 12 модулями памяти на каждый сокет потребляет 400–600 Вт и требует серьёзного охлаждения. Это не MacBook на кухне.
Настройка тоже непростая. Оптимальная конфигурация NUMA, выбор правильной квантизации, настройка llama.cpp под конкретное железо — всё это требует технической экспертизы. Один из пользователей Reddit отмечает, что отключение NUMA в BIOS заметно увеличило скорость генерации на двухсокетной системе, но это контринтуитивно и нигде толком не задокументировано.
Рынок б/у серверных компонентов тоже имеет свои особенности: процессоры без гарантии, память с неизвестной историей, платформы с устаревшим BMC. Кто пробовал собрать homelab из б/у серверного железа, знает, о чём речь.
Что дальше
Тренд на удешевление серверной памяти DDR5 продолжается. Samsung, SK Hynix и Micron наращивают производство, а спрос со стороны дата-центров частично компенсируется переходом на HBM для AI-ускорителей. Обычные RDIMM становятся побочным продуктом этого процесса — и их цены будут падать дальше.
Параллельно растут возможности CPU-инференса: llama.cpp и vLLM активно оптимизируются под серверные процессоры, AMD выпускает специализированные библиотеки вроде ZenDNN и PACE. На горизонте — Intel Arrow Lake-EP с поддержкой MRDIMM на 8000 МТ/с, что даст ещё больше пропускной способности.
Не стоит воспринимать это как замену GPU для всех сценариев. Для обучения моделей, для быстрого интерактивного чата, для продакшн-нагрузок с высокими требованиями к latency — GPU останутся незаменимы. Но для тех, кому нужен доступ к большим открытым моделям без ежемесячных счетов за API, серверная память DDR5 открывает дверь, которая раньше была закрыта. И с каждым месяцем эта дверь становится всё шире.


