M5 Max и локальный AI: конкретные цифры после старта продаж
MacBook Pro с M5 Max вышел 11 марта. Первые реальные тесты: 4x ускорение prefill, скромный рост генерации. Что работает, что нет, как сравнивать с GPU — разбираем цифры.

11 марта 2026 года начались поставки MacBook Pro с M5 Max. Сообщество локального AI ждало этого с ноября — с тех пор, как Apple анонсировала Neural Accelerators в каждом из 40 ядер GPU и пообещала четырёхкратное ускорение обработки LLM-промптов. Теперь есть реальные данные, а не маркетинговые слайды.
Картина неоднозначная, но по делу.
Что изменилось в архитектуре
M5 Max — это не просто "больше гигагерц". Главное новшество: Neural Accelerators, встроенные прямо в GPU-ядра, и новый Metal Performance Primitives API, который позволяет MLX их задействовать.
Пропускная способность памяти: 614 ГБ/с против 546 у M4 Max — прирост около 12%. Объём в максимальной конфигурации — 128 ГБ унифицированной памяти. Длинные контексты на 64 тысячи токенов загружаются без каких-либо проблем.
Казалось бы, 12% — не революция. Но скорость генерации токенов ограничена именно пропускной способностью памяти (bandwidth-bound), поэтому здесь прирост линейный. А обработка входного промпта (prefill) ограничена вычислительной мощностью — и вот тут Neural Accelerators меняют всё.
Конкретные цифры
Скорость генерации (т/с, MLX, 128GB конфигурация):
| Модель | M5 Max 128GB |
|---|---|
| 7B модели (Llama 3.3, Qwen2.5 7B) | 80–100 т/с |
| 14B модели (Qwen2.5 14B, Phi-4) | 45–60 т/с |
| 70B Q4_K_M | 18–25 т/с |
| 120B MoE модели | 65–88 т/с |
| Llama 3.3 70B Q4_K_M (точный замер) | 9.95 т/с |
Для сравнения с M4 Max: те же цифры примерно на 12–27% ниже. Заметно, но не революционно.
Время до первого токена (prefill — вот где прорыв):
Hardware Corner провёл прямое измерение. Промпт, который на M4 Max обрабатывался 81 секунду, на M5 Max занял 18 секунд. Ускорение в 4.5x. Apple официально заявляет "до 4x быстрее M4 Pro/Max" — практика подтверждает.
Что это значит на практике: для RAG-приложений, больших системных промптов, длинных документов — разница огромная. Для простого чата, где всё равно ждёшь ответа — почти незаметна.
MLX vs llama.cpp: выбор фреймворка имеет значение
На Apple Silicon не всё ПО одинаково быстрое. Сравнение показывает:
MLX работает на 20–30% быстрее llama.cpp и до 50% быстрее Ollama (который использует llama.cpp как бэкенд). Для prefill разрыв достигает 3–5x. Neural Accelerators доступны только через Metal 4 TensorOps — API, который поддерживает MLX. llama.cpp пока их не задействует.
Apple на презентации MacBook Pro официально показала LM Studio с MLX-бэкендом — прямой намёк для тех, кто использует Ollama или llama.cpp напрямую.
M5 Max против GPU: честное сравнение
| RTX 5090 (32GB) | RTX Pro 6000 Blackwell (96GB) | M5 Max 128GB | |
|---|---|---|---|
| Prefill скорость | ~4x быстрее | опережает | базовая |
| Генерация | 2–3x быстрее | ~50–65% быстрее | базовая |
| Цена | $2000+ (GPU) | $8800 (GPU) | $5099 (ноутбук) |
| 64K контекст в llama.cpp | проблемы | норм | без проблем |
| Портативность | нет | нет | да |
RTX 5090 в генерации быстрее, но не может без проблем держать длинные контексты в llama.cpp. RTX Pro 6000 Blackwell с 96 ГБ — полноценный конкурент по производительности, но это $8800 только за видеокарту.
M5 Max — полноценный ноутбук с 128 ГБ объединённой памяти за $5099, работающий бесшумно и без внешнего питания. Для практического использования вне датацентра это убедительный аргумент.
Что реально поместится в 128 ГБ
Это, пожалуй, главный вопрос. Ответ:
Llama 3.3 70B в Q4_K_M занимает около 95 ГБ оперативной памяти и выдаёт 9.95 т/с — медленно, но это настоящая 70-миллиардная модель на ноутбуке.
Qwen3.5-35B-A3B (MoE, 8-bit через LM Studio) работает очень быстро для своего класса: MoE-архитектура активирует только ~3B параметров за проход, поэтому несмотря на 35B суммарно, вкладывается примерно в 22 ГБ.
DeepSeek-R1 70B Llama Distill Q8_0 загружается около двух минут, занимает 75–122 ГБ в зависимости от квантизации.
Модели от 220B+ (MiniMax M2.5, DeepSeek V4) начинают выходить за пределы разумного использования — нужна система с большим объёмом RAM.
Итог
M5 Max — самый мощный локальный AI-компьютер, доступный в форм-факторе ноутбука. Генерация токенов быстрее M4 Max на 12–27%, prefill — в среднем в 4.5x благодаря Neural Accelerators. Второй показатель принципиально меняет работу с длинными контекстами.
Для тех, кто уже работает с M4 Max и доволен — апгрейд не обязателен. Для тех, кто сейчас выбирает между ноутбуком и GPU-станцией, уравнение заметно изменилось.


