GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
local-llmintel-optanekimi-k2diyhardware1t-model

Сборка за $2500 крутит Kimi K2.5 на триллион параметров локально

Энтузиаст показал, как с помощью Intel Optane Persistent Memory можно запустить 1T-модель Kimi K2.5 дома на скорости 4 токена в секунду.

Влад МакаровВлад Макаровпроверил и опубликовал
5 мин чтения
Сборка за $2500 крутит Kimi K2.5 на триллион параметров локально

Цена входного билета в эпоху триллион-параметрических моделей внезапно рухнула с $200 тысяч за облачный кластер до $2500 за подержанные железки на eBay. На прошлой неделе пользователь r/LocalLLaMA показал сборку на основе Intel Optane Persistent Memory, которая запускает Kimi K2.5 — открытую модель Moonshot AI на 1 триллион параметров — со скоростью около 4 токенов в секунду.

Это не быстро. Это даже не «сидеть и пользоваться». Это медленнее, чем человек печатает на клавиатуре. Но это локально, на железе за стоимость поношенного iPhone, и это работает.

Конфигурация

Автор сборки опубликовал спецификацию в комментариях:

  • Процессор: Xeon Gold 6246 (12 ядер Cascade Lake)
  • Материнка: TYAN S5630GMRE-CGN
  • RAM: 192 ГБ DDR4 ECC RDIMM
  • Optane PMem: 768 ГБ Intel DC Persistent Memory в Memory Mode
  • GPU: NVIDIA RTX 3060 12 ГБ
  • Бюджет: $2060–2500 на eBay/б.у.

Главный фокус — Intel Optane Persistent Memory. Эта технология Intel представила в 2019 году, прекратила выпуск в 2022, и сейчас б/у-модули продаются за копейки. На обычных рабочих станциях её нет, потому что она требует серверной платформы Cascade Lake или Ice Lake Xeon с поддержкой PMem.

В режиме Memory Mode операционная система видит Optane как обычную системную RAM, а DDR4 работает как кэш. Это медленнее настоящей DRAM (по латентности и пропускной способности), но позволяет получить большие объёмы памяти на сервере — в данном случае 768 ГБ только Optane плюс 192 ГБ DDR4-кэша.

Зачем это нужно

Kimi K2.5 от Moonshot AI — модель архитектуры Mixture-of-Experts на 1 триллион параметров. Полные веса в FP16 занимают около 2 ТБ. Даже после квантизации в Q4_K модель весит больше 500 ГБ.

На обычной потребительской машине загрузить такую модель невозможно. У топового Mac Studio M5 Ultra — 512 ГБ унифицированной памяти. У RTX 6000 — 96 ГБ. У DGX Spark — 128 ГБ. Все они физически не способны вместить Kimi K2.5 целиком.

А с 768 ГБ Optane плюс 192 ГБ DDR4 (итого почти терабайт памяти) — могут. И в этом смысл: дешёвая, медленная, но огромная память даёт доступ к моделям, которые иначе требовали бы дата-центра.

Как это работает в llama.cpp

Конкретный фокус сборки — гибридный inference в llama.cpp. У MoE-модели вроде Kimi K2.5 архитектура устроена так, что во время каждого forward pass активируется только небольшая часть экспертов (типичные значения — 8 из 128 экспертов на токен).

Это позволяет применить трюк override-tensor или cmoe: разредить «горячие» части модели (attention, общие слои, маршрутизатор экспертов) на GPU, а «холодные» части (отдельных экспертов) держать в системной памяти. Когда запрос приходит, llama.cpp загружает с диска только нужных экспертов.

Тут вступает в игру Optane PMem. Случайный доступ к 1 ТБ NVMe SSD занял бы десятки миллисекунд на токен — это убийство интерактивности. Optane в Memory Mode даёт сравнительно низкую латентность (порядка 100–300 нс), что позволяет gpu-cpu пайплайну работать без катастрофических задержек.

Результат — 4 токена в секунду. Это эквивалент примерно 240 токенам в минуту, или около 180 слов английского текста. Если задача — генерировать длинный отчёт, статью или код за 10–30 минут, это вполне терпимо.

Что не работает

Скорость генерации (decoding) у этой сборки приличная, но prompt processing — обработка длинного входного контекста — будет значительно медленнее. На обычных GPU prompt processing проходит в десятки раз быстрее, чем генерация, потому что внимание считается батчем. На Optane прирост от батчирования съедается медленной памятью.

Это значит: если вы кормите модели длинный документ (50 тысяч токенов контекста), первичная обработка может занять 5–10 минут. И только после этого начнётся 4 t/s генерация.

Второй момент — стабильность. Optane PMem в Memory Mode переключает страницы между Optane и DDR4-кэшем прозрачно для ОС, но это создаёт непредсказуемые «прыжки» латентности. Под длительными нагрузками часть пользователей сообщает о сбоях на конкретных платформах.

Третье — экосистема. Intel прекратила выпуск Optane в 2022. Купить новые модули нельзя, только подержанные. Гарантии нет, поддержки нет. Если планка умрёт через два года — у вас просто будет машина с меньшим объёмом RAM.

Альтернативы и стоимость

Чтобы запустить Kimi K2.5 локально по-другому, варианты выглядят так:

ВариантЦенаСкоростьСложность
Optane PMem сборка$2 000–2 5004 t/sВысокая
Mac Studio M5 Ultra 512 ГБ~$15 000~30 t/s (Q4)Низкая
4× H100 80 ГБ~$120 000~50 t/s (FP8)Средняя
Облако (Groq/Cerebras)$5–20/час100+ t/sНизкая

В этом раскладе Optane-сборка — это не про скорость и не про удобство. Это про возможность вообще иметь физический доступ к терабайтному классу моделей за деньги, сравнимые с подержанным ноутбуком.

Что это значит

Год назад «локальный inference» означал максимум 70B-модели на одной 3090. Сегодня люди гоняют дома модели в 14 раз больше, пусть и медленно. Через год, скорее всего, появится массовая поддержка multi-tier inference (gpu + ddr + nvme) в llama.cpp и vLLM, и порог снизится ещё сильнее.

Для индустрии это означает следующее. Закрытые модели OpenAI и Anthropic выигрывают не за счёт «эксклюзивных весов», а за счёт скорости и качества. Если открытая модель догнала их по качеству (а Kimi K2.5 по большинству бенчмарков очень близка к GPT-5), единственным барьером остаётся инфраструктура.

И вот эта Optane-сборка — пример того, как энтузиасты на ровном месте подрывают этот барьер. Не «доступно всем» — но «доступно тем, кто готов копаться». Этого достаточно, чтобы экосистема открытых моделей продолжала расти.

Главный вывод сборки автора прост: триллионо-параметрическая модель у вас на столе — это уже не миф. Просто будьте готовы заварить чашку чая, пока она думает над вашим первым вопросом.

Похожие новости

Листайте вниз

для загрузки следующей статьи