DDR5 RDIMM дешевле RTX 3090 — переломный момент для локального AI

Цены на серверную память DDR5 RDIMM упали настолько, что набрать 768 ГБ RAM для инференса LLM стало дешевле покупки GPU. Разбираем математику и реальный опыт.

Год назад идея запустить DeepSeek R1 на 671 миллиард параметров у себя дома звучала как фантазия. Сегодня на Reddit сообщество r/LocalLLaMA обсуждает конфигурации за $600–800, на которых это реально работает — и ключевой компонент здесь не видеокарта, а обычная серверная память DDR5 RDIMM. Пост набрал 442 апвоута и 195 комментариев, и судя по тону дискуссии, многие восприняли это как переломный момент.

Что изменилось в ценах

Ещё в 2024 году модуль DDR5 RDIMM на 128 ГБ стоил порядка $400–500. К февралю 2026-го цены обвалились: планки DDR5-4800 RDIMM на 64 ГБ продаются за $55–70 на вторичном рынке, а 128 ГБ модули — за $120–180. Это примерно $1–1.4 за гигабайт серверной памяти с ECC.

Для сравнения: RTX 3090 с 24 ГБ VRAM на вторичке стоит около $700–900. Это $29–37 за гигабайт видеопамяти GDDR6X. Разница — в 25–30 раз. Даже если учесть, что GPU-память значительно быстрее, экономика складывается не в пользу видеокарт, когда речь заходит о больших моделях.

Набрать 768 ГБ DDR5 на платформе с двухсокетным AMD EPYC можно за $700–1000 за саму память. Серверная материнская плата и пара б/у процессоров EPYC 7003/9004 на вторичке добавят ещё $500–800. Итого: полноценная система с 768 ГБ RAM — примерно за $1200–1800. За те же деньги можно купить одну RTX 3090 с её 24 ГБ.

Математика инференса на CPU

Главный аргумент противников CPU-инференса — скорость. И здесь нужно говорить честно: да, это медленнее. Значительно медленнее.

RTX 3090 обеспечивает пропускную способность памяти около 936 ГБ/с (GDDR6X). Один модуль DDR5-4800 RDIMM — порядка 38 ГБ/с. Но серверный процессор EPYC с 12 каналами памяти агрегирует это до 460 ГБ/с, а в двухсокетной конфигурации — до 920 ГБ/с. Неожиданно близко к RTX 3090 по пропускной способности, но с 32-кратным преимуществом по объёму.

На практике пользователи llama.cpp сообщают о реальных результатах: DeepSeek R1 671B в квантизации Q5_K_S на двух EPYC 9654 выдаёт 4–5 токенов в секунду. Это не молниеносно, но вполне читаемо — примерно как медленный собеседник в чате. Для моделей поменьше цифры интереснее: Llama 70B в Q4 на одном EPYC генерирует 8–12 токенов в секунду.

AMD недавно продемонстрировала свою технологию PARD (Parallel Draft Models) на процессорах EPYC 9755, достигнув 380 токенов в секунду на Llama 3.1 8B. Это уже быстрее, чем большинство облачных API.

Зачем кому-то 768 ГБ RAM

Ответ прост: чтобы запустить то, что не влезает в GPU. Полная модель DeepSeek R1 671B в формате Q5 занимает около 462 ГБ. Ни одна потребительская видеокарта не имеет столько памяти. Даже связка из четырёх RTX 3090 даёт всего 96 ГБ VRAM — в пять раз меньше необходимого.

Модель	Размер (Q4/Q5)	Нужно VRAM/RAM	RTX 3090 (шт.)	DDR5 RDIMM (стоимость)
Llama 70B Q4	~40 ГБ	48 ГБ	2 (~$1600)	64 ГБ (~$70)
Qwen 3.5 397B Q4	~220 ГБ	256 ГБ	11 (~$8800)	256 ГБ (~$350)
DeepSeek R1 671B Q5	~462 ГБ	512 ГБ	22 (~$17600)	512 ГБ (~$700)
DeepSeek V4 Q4	~550 ГБ	640 ГБ	27 (~$21600)	768 ГБ (~$1000)

Цифры говорят сами за себя. Конечно, сравнение не совсем корректное — GPU-инференс будет в 5–10 раз быстрее. Но если выбор стоит между «запустить модель медленно дома» и «не запустить вообще», многие выберут первое.

Для кого это имеет смысл

Сообщество LocalLLaMA разделилось. Часть пользователей справедливо указывает на то, что 4–5 токенов в секунду на 671B — это «бесполезно медленно». Для интерактивного чата — возможно. Но есть сценарии, где скорость не критична.

Пакетная обработка документов, генерация синтетических данных, автоматический код-ревью ночью, анализ больших текстов — всё это может работать асинхронно. Запустил задачу перед сном, утром получил результат. При стоимости системы в $1500–2000 и нулевых текущих расходах на API это окупается за несколько месяцев активного использования.

Второй аргумент — приватность. Для компаний, работающих с конфиденциальными данными, локальный инференс на CPU снимает вопросы о передаче информации третьим сторонам. А если вспомнить недавние обсуждения утечек данных через облачные AI-провайдеры, мотивация становится ещё понятнее.

Подводные камни

Было бы нечестно не упомянуть сложности. Серверные платформы шумные — двухсокетный EPYC с 12 модулями памяти на каждый сокет потребляет 400–600 Вт и требует серьёзного охлаждения. Это не MacBook на кухне.

Настройка тоже непростая. Оптимальная конфигурация NUMA, выбор правильной квантизации, настройка llama.cpp под конкретное железо — всё это требует технической экспертизы. Один из пользователей Reddit отмечает, что отключение NUMA в BIOS заметно увеличило скорость генерации на двухсокетной системе, но это контринтуитивно и нигде толком не задокументировано.

Рынок б/у серверных компонентов тоже имеет свои особенности: процессоры без гарантии, память с неизвестной историей, платформы с устаревшим BMC. Кто пробовал собрать homelab из б/у серверного железа, знает, о чём речь.

Что дальше

Тренд на удешевление серверной памяти DDR5 продолжается. Samsung, SK Hynix и Micron наращивают производство, а спрос со стороны дата-центров частично компенсируется переходом на HBM для AI-ускорителей. Обычные RDIMM становятся побочным продуктом этого процесса — и их цены будут падать дальше.

Параллельно растут возможности CPU-инференса: llama.cpp и vLLM активно оптимизируются под серверные процессоры, AMD выпускает специализированные библиотеки вроде ZenDNN и PACE. На горизонте — Intel Arrow Lake-EP с поддержкой MRDIMM на 8000 МТ/с, что даст ещё больше пропускной способности.

Не стоит воспринимать это как замену GPU для всех сценариев. Для обучения моделей, для быстрого интерактивного чата, для продакшн-нагрузок с высокими требованиями к latency — GPU останутся незаменимы. Но для тех, кому нужен доступ к большим открытым моделям без ежемесячных счетов за API, серверная память DDR5 открывает дверь, которая раньше была закрыта. И с каждым месяцем эта дверь становится всё шире.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

DDR5 RDIMM дешевле RTX 3090 — переломный момент для локального AI

Что изменилось в ценах

Математика инференса на CPU

Зачем кому-то 768 ГБ RAM

Для кого это имеет смысл

Подводные камни

Что дальше

Похожие новости

Субквадратичное внимание: 76 токенов/с на 10 миллионах контекста на одной GPU

Что такое интеллект? Ответ Jensen Huang взорвал Reddit

DreamDojo: как NVIDIA учит роботов на 44 000 часах видео