Как запустить Kimi K2.5 локально: полный гайд
Пошаговая инструкция по запуску триллионной модели Kimi K2.5 на домашнем железе через llama.cpp с Unsloth GGUF квантизацией.
Триллионная модель Kimi K2.5 от Moonshot AI теперь доступна для локального запуска благодаря квантизации от Unsloth. Полноценная версия требует около 600 ГБ, но динамическая 1.58-bit квантизация сжимает её до 240 ГБ — и это работает на домашнем железе.
Требования к железу
Главное правило простое: диск + RAM + VRAM ≥ 240 ГБ. Не обязательно иметь столько видеопамяти — llama.cpp умеет распределять нагрузку между GPU и системной памятью, просто работать будет медленнее.
На практике это означает: если у вас 24 ГБ VRAM и 256 ГБ RAM, модель запустится и выдаст около 10 токенов в секунду. С 4× H100 скорость вырастет до 40+ токенов в секунду. На системах с меньшим объёмом памяти llama.cpp будет использовать mmap и диск, но скорость упадёт до 1-2 токенов в секунду.
Минимальные требования:
- Диск: 240+ ГБ (NVMe SSD рекомендуется)
- RAM + VRAM: 240+ ГБ суммарно
- CPU: с поддержкой AVX2
Почему только llama.cpp
Сразу важное уточнение: Ollama и vLLM на момент написания не поддерживают Kimi K2.5. Единственный рабочий вариант — llama.cpp с GGUF файлами от Unsloth.
Unsloth использует динамическую квантизацию: критические слои (attention, routing) сохраняются в более высокой точности, а feed-forward слои сжимаются агрессивнее. Это позволяет запускать триллионную модель, сохраняя качество рассуждений.
Установка llama.cpp
Клонируем репозиторий и собираем с поддержкой CUDA. Если GPU нет — замените -DGGML_CUDA=ON на -DGGML_CUDA=OFF.
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build build --config Release -j --target llama-cli llama-server
Скачивание модели
Рекомендую использовать 1.58-bit квантизацию (UD-TQ1_0) — это минимальный размер при сохранении качества.
pip install huggingface_hub
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
--include "*UD-TQ1_0*" \
--local-dir models/kimi-k2.5
Для баланса качества и размера можно взять UD-Q2_K_XL (375 ГБ). Для работы в почти полной точности — UD-Q4_K_XL (630 ГБ).
Запуск модели
Moonshot AI рекомендует специфические параметры сэмплирования:
./build/bin/llama-server \
-m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
--port 8001 \
--temp 1.0 \
--min-p 0.01 \
--top-p 0.95 \
--ctx-size 16384 \
--fit on \
--jinja
Параметр --fit on автоматически распределяет слои между GPU и CPU. Контекст можно увеличить до 256K, но это потребует больше памяти.
Подключение через OpenAI API
После запуска сервер доступен по адресу http://127.0.0.1:8001/v1 и совместим с библиотекой OpenAI:
from openai import OpenAI
client = OpenAI(
base_url="http://127.0.0.1:8001/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="kimi-k2.5-local",
messages=[{"role": "user", "content": "Напиши функцию сортировки на Python"}],
temperature=1.0
)
Решение проблем
Если модель не загружается с ошибкой памяти — уменьшите --ctx-size до 4096 или 8192. Если генерация выдаёт мусор или повторяющийся текст — убедитесь, что используете temperature 1.0 и min-p 0.01.
При медленной генерации попробуйте явно указать, какие слои выгружать на CPU: параметр -ot ".ffn_.*_exps.=CPU" переносит все MoE слои на процессор, освобождая VRAM для остальных вычислений.
Для тех, кто не хочет возиться с железом, Kimi K2.5 API стоит $0.60 за миллион токенов и не требует никакой настройки.
