Сборка за $2500 крутит Kimi K2.5 на триллион параметров локально
Энтузиаст показал, как с помощью Intel Optane Persistent Memory можно запустить 1T-модель Kimi K2.5 дома на скорости 4 токена в секунду.

Цена входного билета в эпоху триллион-параметрических моделей внезапно рухнула с $200 тысяч за облачный кластер до $2500 за подержанные железки на eBay. На прошлой неделе пользователь r/LocalLLaMA показал сборку на основе Intel Optane Persistent Memory, которая запускает Kimi K2.5 — открытую модель Moonshot AI на 1 триллион параметров — со скоростью около 4 токенов в секунду.
Это не быстро. Это даже не «сидеть и пользоваться». Это медленнее, чем человек печатает на клавиатуре. Но это локально, на железе за стоимость поношенного iPhone, и это работает.
Конфигурация
Автор сборки опубликовал спецификацию в комментариях:
- Процессор: Xeon Gold 6246 (12 ядер Cascade Lake)
- Материнка: TYAN S5630GMRE-CGN
- RAM: 192 ГБ DDR4 ECC RDIMM
- Optane PMem: 768 ГБ Intel DC Persistent Memory в Memory Mode
- GPU: NVIDIA RTX 3060 12 ГБ
- Бюджет: $2060–2500 на eBay/б.у.
Главный фокус — Intel Optane Persistent Memory. Эта технология Intel представила в 2019 году, прекратила выпуск в 2022, и сейчас б/у-модули продаются за копейки. На обычных рабочих станциях её нет, потому что она требует серверной платформы Cascade Lake или Ice Lake Xeon с поддержкой PMem.
В режиме Memory Mode операционная система видит Optane как обычную системную RAM, а DDR4 работает как кэш. Это медленнее настоящей DRAM (по латентности и пропускной способности), но позволяет получить большие объёмы памяти на сервере — в данном случае 768 ГБ только Optane плюс 192 ГБ DDR4-кэша.
Зачем это нужно
Kimi K2.5 от Moonshot AI — модель архитектуры Mixture-of-Experts на 1 триллион параметров. Полные веса в FP16 занимают около 2 ТБ. Даже после квантизации в Q4_K модель весит больше 500 ГБ.
На обычной потребительской машине загрузить такую модель невозможно. У топового Mac Studio M5 Ultra — 512 ГБ унифицированной памяти. У RTX 6000 — 96 ГБ. У DGX Spark — 128 ГБ. Все они физически не способны вместить Kimi K2.5 целиком.
А с 768 ГБ Optane плюс 192 ГБ DDR4 (итого почти терабайт памяти) — могут. И в этом смысл: дешёвая, медленная, но огромная память даёт доступ к моделям, которые иначе требовали бы дата-центра.
Как это работает в llama.cpp
Конкретный фокус сборки — гибридный inference в llama.cpp. У MoE-модели вроде Kimi K2.5 архитектура устроена так, что во время каждого forward pass активируется только небольшая часть экспертов (типичные значения — 8 из 128 экспертов на токен).
Это позволяет применить трюк override-tensor или cmoe: разредить «горячие» части модели (attention, общие слои, маршрутизатор экспертов) на GPU, а «холодные» части (отдельных экспертов) держать в системной памяти. Когда запрос приходит, llama.cpp загружает с диска только нужных экспертов.
Тут вступает в игру Optane PMem. Случайный доступ к 1 ТБ NVMe SSD занял бы десятки миллисекунд на токен — это убийство интерактивности. Optane в Memory Mode даёт сравнительно низкую латентность (порядка 100–300 нс), что позволяет gpu-cpu пайплайну работать без катастрофических задержек.
Результат — 4 токена в секунду. Это эквивалент примерно 240 токенам в минуту, или около 180 слов английского текста. Если задача — генерировать длинный отчёт, статью или код за 10–30 минут, это вполне терпимо.
Что не работает
Скорость генерации (decoding) у этой сборки приличная, но prompt processing — обработка длинного входного контекста — будет значительно медленнее. На обычных GPU prompt processing проходит в десятки раз быстрее, чем генерация, потому что внимание считается батчем. На Optane прирост от батчирования съедается медленной памятью.
Это значит: если вы кормите модели длинный документ (50 тысяч токенов контекста), первичная обработка может занять 5–10 минут. И только после этого начнётся 4 t/s генерация.
Второй момент — стабильность. Optane PMem в Memory Mode переключает страницы между Optane и DDR4-кэшем прозрачно для ОС, но это создаёт непредсказуемые «прыжки» латентности. Под длительными нагрузками часть пользователей сообщает о сбоях на конкретных платформах.
Третье — экосистема. Intel прекратила выпуск Optane в 2022. Купить новые модули нельзя, только подержанные. Гарантии нет, поддержки нет. Если планка умрёт через два года — у вас просто будет машина с меньшим объёмом RAM.
Альтернативы и стоимость
Чтобы запустить Kimi K2.5 локально по-другому, варианты выглядят так:
| Вариант | Цена | Скорость | Сложность |
|---|---|---|---|
| Optane PMem сборка | $2 000–2 500 | 4 t/s | Высокая |
| Mac Studio M5 Ultra 512 ГБ | ~$15 000 | ~30 t/s (Q4) | Низкая |
| 4× H100 80 ГБ | ~$120 000 | ~50 t/s (FP8) | Средняя |
| Облако (Groq/Cerebras) | $5–20/час | 100+ t/s | Низкая |
В этом раскладе Optane-сборка — это не про скорость и не про удобство. Это про возможность вообще иметь физический доступ к терабайтному классу моделей за деньги, сравнимые с подержанным ноутбуком.
Что это значит
Год назад «локальный inference» означал максимум 70B-модели на одной 3090. Сегодня люди гоняют дома модели в 14 раз больше, пусть и медленно. Через год, скорее всего, появится массовая поддержка multi-tier inference (gpu + ddr + nvme) в llama.cpp и vLLM, и порог снизится ещё сильнее.
Для индустрии это означает следующее. Закрытые модели OpenAI и Anthropic выигрывают не за счёт «эксклюзивных весов», а за счёт скорости и качества. Если открытая модель догнала их по качеству (а Kimi K2.5 по большинству бенчмарков очень близка к GPT-5), единственным барьером остаётся инфраструктура.
И вот эта Optane-сборка — пример того, как энтузиасты на ровном месте подрывают этот барьер. Не «доступно всем» — но «доступно тем, кто готов копаться». Этого достаточно, чтобы экосистема открытых моделей продолжала расти.
Главный вывод сборки автора прост: триллионо-параметрическая модель у вас на столе — это уже не миф. Просто будьте готовы заварить чашку чая, пока она думает над вашим первым вопросом.


