GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
cpulocal-llmllama-cppоптимизацияhardware

CPU-only AI: запуск нейросетей без GPU набирает обороты

Сообщество LocalLLaMA обсуждает запуск LLM на обычных процессорах. Разбираем инструменты, модели и реальные бенчмарки для AI без видеокарты.

Влад МакаровВлад Макаровпроверил и опубликовал
7 мин чтения
CPU-only AI: запуск нейросетей без GPU набирает обороты

Дискуссия на r/LocalLLaMA с 477 голосами и 108 комментариями показала, что тема запуска нейросетей без GPU далека от маргинальной. Люди реально используют обычные процессоры для инференса, и результаты иногда удивляют. Современные CPU выдают 30-50 токенов в секунду на оптимизированных моделях — достаточно для чат-ботов и ассистентов в реальном времени.

Почему CPU-инференс стал реальностью

Ещё год назад запуск языковой модели на процессоре казался упражнением в терпении. Сегодня ситуация изменилась благодаря трём факторам: новые архитектуры процессоров с огромной пропускной способностью памяти, агрессивное квантование моделей (INT4, INT2) и оптимизированные рантаймы вроде llama.cpp.

Ключевая метрика для CPU-инференса — не TFLOPS, а пропускная способность памяти. При генерации токенов модель в основном читает веса из памяти, и здесь CPU с быстрой DDR5 могут конкурировать с бюджетными GPU. Intel Xeon и AMD EPYC серверные процессоры теоретически обеспечивают до 68 ГБ/с на сокет, а новые десктопные чипы с DDR5-7200 — около 100 ГБ/с.

Apple Silicon заслуживает отдельного упоминания. Mac Studio с M2 Ultra и 192 ГБ единой памяти может запускать модели, которые физически не помещаются даже в RTX 4090 с 24 ГБ VRAM. При этом скорость инференса на Apple Silicon сопоставима с GPU благодаря широкой шине памяти.

Инструменты для CPU-инференса

Экосистема инструментов для локального запуска LLM значительно повзрослела к 2026 году.

llama.cpp остаётся фундаментальным движком. Проект теперь поставляется с полноценным HTTP-сервером (llama-server) с WebUI и OpenAI-совместимым API. Модели можно загружать напрямую с Hugging Face через -hf, без ручного скачивания файлов. Поддерживаются бэкенды Metal, CUDA, Vulkan и чистый CPU. В тестах на CPU Intel Xeon W-2495X llama.cpp выдаёт около 12-15 токенов/с для 8B моделей в Q4_K_M квантовании.

LM Studio превратился из простого десктопного приложения в полноценную локальную платформу. Версия 0.3.5 добавила headless-режим для фонового сервера и JIT-загрузку моделей по первому API-запросу. Встроенный RAG позволяет чатить с документами без внешних зависимостей.

Llamafile от Mozilla позволяет упаковать модель и рантайм в один исполняемый файл. Скопировал, запустил — работает. Идеально для offline-демонстраций и развёртывания на машинах без настроенного окружения.

Какие модели запускать на CPU

Выбор модели для CPU-инференса определяется объёмом доступной RAM. Общее правило: модель в Q4 квантовании занимает примерно половину от размера в FP16.

МодельПараметрыRAM (Q4)Скорость (CPU)Назначение
Phi-4-mini3.8B~2.5 ГБ40-60 т/сРассуждение, код
Llama 3.23B~2 ГБ50-70 т/сОбщие задачи
Qwen3-8B8B~5 ГБ15-25 т/сМультиязычность
Gemma 34B~3 ГБ30-45 т/сСуммаризация
DeepSeek R1 (distill)7B~4.5 ГБ12-20 т/сРассуждение, код

Отдельно стоит выделить MoE-модели. Step-3.5-Flash-int4 от StepFun (196B параметров, MoE) работает на Mac Studio с 128 ГБ RAM и показывает 74.4% на SWE-bench — результат уровня топовых облачных моделей.

Практические советы из сообщества

Участники r/LocalLLaMA делятся несколькими важными наблюдениями. Гиперпоточность (Hyper-Threading) на Intel процессорах может мешать: llama.cpp считает логические ядра вместо физических, что приводит к двойному подсчёту потоков. Рекомендуется вручную указывать число потоков, равное количеству физических ядер.

Двухсокетные серверы показывают результаты лишь немного лучше односокетных — узкое место в NUMA-архитектуре, где доступ к памяти другого сокета идёт через интерконнект с повышенной задержкой. На практике два Intel Xeon с пиковой пропускной способностью 68 ГБ/с каждый дают прирост всего 10-15% к скорости инференса.

Квантование до INT4 и ниже — ключ к производительности на CPU. Форматы GGUF позволяют использовать различные стратегии квантования (Q4_K_M, Q5_K_M, IQ2_S) с разным балансом качества и скорости.

Для кого это

CPU-инференс не заменит GPU для задач, требующих длинного контекста или параллельной генерации для множества пользователей. Но для индивидуального использования — приватный ассистент, офлайн-работа, эксперименты с моделями — процессор может быть вполне достаточен.

Главное преимущество — доступность. У каждого есть CPU. Не у каждого есть GPU за $1000+. Если вам нужен локальный AI-ассистент, который работает без интернета и без дорогой видеокарты, сейчас лучшее время для старта. Установите Ollama или LM Studio, загрузите Phi-4-mini или Llama 3.2 3B, и попробуйте сами.

Похожие новости

Листайте вниз

для загрузки следующей статьи