GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
kimik2.5llama.cppлокальныйгайд

Как запустить Kimi K2.5 локально: полный гайд

Пошаговая инструкция по запуску триллионной модели Kimi K2.5 на домашнем железе через llama.cpp с Unsloth GGUF квантизацией.

Влад МакаровВлад Макаровпроверил и опубликовал
4 мин чтения

Триллионная модель Kimi K2.5 от Moonshot AI теперь доступна для локального запуска благодаря квантизации от Unsloth. Полноценная версия требует около 600 ГБ, но динамическая 1.58-bit квантизация сжимает её до 240 ГБ — и это работает на домашнем железе.

Требования к железу

Главное правило простое: диск + RAM + VRAM ≥ 240 ГБ. Не обязательно иметь столько видеопамяти — llama.cpp умеет распределять нагрузку между GPU и системной памятью, просто работать будет медленнее.

На практике это означает: если у вас 24 ГБ VRAM и 256 ГБ RAM, модель запустится и выдаст около 10 токенов в секунду. С 4× H100 скорость вырастет до 40+ токенов в секунду. На системах с меньшим объёмом памяти llama.cpp будет использовать mmap и диск, но скорость упадёт до 1-2 токенов в секунду.

Минимальные требования:

  • Диск: 240+ ГБ (NVMe SSD рекомендуется)
  • RAM + VRAM: 240+ ГБ суммарно
  • CPU: с поддержкой AVX2

Почему только llama.cpp

Сразу важное уточнение: Ollama и vLLM на момент написания не поддерживают Kimi K2.5. Единственный рабочий вариант — llama.cpp с GGUF файлами от Unsloth.

Unsloth использует динамическую квантизацию: критические слои (attention, routing) сохраняются в более высокой точности, а feed-forward слои сжимаются агрессивнее. Это позволяет запускать триллионную модель, сохраняя качество рассуждений.

Установка llama.cpp

Клонируем репозиторий и собираем с поддержкой CUDA. Если GPU нет — замените -DGGML_CUDA=ON на -DGGML_CUDA=OFF.

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build build --config Release -j --target llama-cli llama-server

Скачивание модели

Рекомендую использовать 1.58-bit квантизацию (UD-TQ1_0) — это минимальный размер при сохранении качества.

pip install huggingface_hub
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  --include "*UD-TQ1_0*" \
  --local-dir models/kimi-k2.5

Для баланса качества и размера можно взять UD-Q2_K_XL (375 ГБ). Для работы в почти полной точности — UD-Q4_K_XL (630 ГБ).

Запуск модели

Moonshot AI рекомендует специфические параметры сэмплирования:

./build/bin/llama-server \
  -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
  --port 8001 \
  --temp 1.0 \
  --min-p 0.01 \
  --top-p 0.95 \
  --ctx-size 16384 \
  --fit on \
  --jinja

Параметр --fit on автоматически распределяет слои между GPU и CPU. Контекст можно увеличить до 256K, но это потребует больше памяти.

Подключение через OpenAI API

После запуска сервер доступен по адресу http://127.0.0.1:8001/v1 и совместим с библиотекой OpenAI:

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="kimi-k2.5-local",
    messages=[{"role": "user", "content": "Напиши функцию сортировки на Python"}],
    temperature=1.0
)

Решение проблем

Если модель не загружается с ошибкой памяти — уменьшите --ctx-size до 4096 или 8192. Если генерация выдаёт мусор или повторяющийся текст — убедитесь, что используете temperature 1.0 и min-p 0.01.

При медленной генерации попробуйте явно указать, какие слои выгружать на CPU: параметр -ot ".ffn_.*_exps.=CPU" переносит все MoE слои на процессор, освобождая VRAM для остальных вычислений.

Для тех, кто не хочет возиться с железом, Kimi K2.5 API стоит $0.60 за миллион токенов и не требует никакой настройки.

Похожие новости

Листайте вниз

для загрузки следующей статьи