M5 Max и локальный AI: конкретные цифры после старта продаж

MacBook Pro с M5 Max вышел 11 марта. Первые реальные тесты: 4x ускорение prefill, скромный рост генерации. Что работает, что нет, как сравнивать с GPU — разбираем цифры.

11 марта 2026 года начались поставки MacBook Pro с M5 Max. Сообщество локального AI ждало этого с ноября — с тех пор, как Apple анонсировала Neural Accelerators в каждом из 40 ядер GPU и пообещала четырёхкратное ускорение обработки LLM-промптов. Теперь есть реальные данные, а не маркетинговые слайды.

Картина неоднозначная, но по делу.

Что изменилось в архитектуре

M5 Max — это не просто "больше гигагерц". Главное новшество: Neural Accelerators, встроенные прямо в GPU-ядра, и новый Metal Performance Primitives API, который позволяет MLX их задействовать.

Пропускная способность памяти: 614 ГБ/с против 546 у M4 Max — прирост около 12%. Объём в максимальной конфигурации — 128 ГБ унифицированной памяти. Длинные контексты на 64 тысячи токенов загружаются без каких-либо проблем.

Казалось бы, 12% — не революция. Но скорость генерации токенов ограничена именно пропускной способностью памяти (bandwidth-bound), поэтому здесь прирост линейный. А обработка входного промпта (prefill) ограничена вычислительной мощностью — и вот тут Neural Accelerators меняют всё.

Конкретные цифры

Скорость генерации (т/с, MLX, 128GB конфигурация):

Модель	M5 Max 128GB
7B модели (Llama 3.3, Qwen2.5 7B)	80–100 т/с
14B модели (Qwen2.5 14B, Phi-4)	45–60 т/с
70B Q4_K_M	18–25 т/с
120B MoE модели	65–88 т/с
Llama 3.3 70B Q4_K_M (точный замер)	9.95 т/с

Для сравнения с M4 Max: те же цифры примерно на 12–27% ниже. Заметно, но не революционно.

Время до первого токена (prefill — вот где прорыв):

Hardware Corner провёл прямое измерение. Промпт, который на M4 Max обрабатывался 81 секунду, на M5 Max занял 18 секунд. Ускорение в 4.5x. Apple официально заявляет "до 4x быстрее M4 Pro/Max" — практика подтверждает.

Что это значит на практике: для RAG-приложений, больших системных промптов, длинных документов — разница огромная. Для простого чата, где всё равно ждёшь ответа — почти незаметна.

MLX vs llama.cpp: выбор фреймворка имеет значение

На Apple Silicon не всё ПО одинаково быстрое. Сравнение показывает:

MLX работает на 20–30% быстрее llama.cpp и до 50% быстрее Ollama (который использует llama.cpp как бэкенд). Для prefill разрыв достигает 3–5x. Neural Accelerators доступны только через Metal 4 TensorOps — API, который поддерживает MLX. llama.cpp пока их не задействует.

Apple на презентации MacBook Pro официально показала LM Studio с MLX-бэкендом — прямой намёк для тех, кто использует Ollama или llama.cpp напрямую.

M5 Max против GPU: честное сравнение

	RTX 5090 (32GB)	RTX Pro 6000 Blackwell (96GB)	M5 Max 128GB
Prefill скорость	~4x быстрее	опережает	базовая
Генерация	2–3x быстрее	~50–65% быстрее	базовая
Цена	$2000+ (GPU)	$8800 (GPU)	$5099 (ноутбук)
64K контекст в llama.cpp	проблемы	норм	без проблем
Портативность	нет	нет	да

RTX 5090 в генерации быстрее, но не может без проблем держать длинные контексты в llama.cpp. RTX Pro 6000 Blackwell с 96 ГБ — полноценный конкурент по производительности, но это $8800 только за видеокарту.

M5 Max — полноценный ноутбук с 128 ГБ объединённой памяти за $5099, работающий бесшумно и без внешнего питания. Для практического использования вне датацентра это убедительный аргумент.

Что реально поместится в 128 ГБ

Это, пожалуй, главный вопрос. Ответ:

Llama 3.3 70B в Q4_K_M занимает около 95 ГБ оперативной памяти и выдаёт 9.95 т/с — медленно, но это настоящая 70-миллиардная модель на ноутбуке.

Qwen3.5-35B-A3B (MoE, 8-bit через LM Studio) работает очень быстро для своего класса: MoE-архитектура активирует только ~3B параметров за проход, поэтому несмотря на 35B суммарно, вкладывается примерно в 22 ГБ.

DeepSeek-R1 70B Llama Distill Q8_0 загружается около двух минут, занимает 75–122 ГБ в зависимости от квантизации.

Модели от 220B+ (MiniMax M2.5, DeepSeek V4) начинают выходить за пределы разумного использования — нужна система с большим объёмом RAM.

Итог

M5 Max — самый мощный локальный AI-компьютер, доступный в форм-факторе ноутбука. Генерация токенов быстрее M4 Max на 12–27%, prefill — в среднем в 4.5x благодаря Neural Accelerators. Второй показатель принципиально меняет работу с длинными контекстами.

Для тех, кто уже работает с M4 Max и доволен — апгрейд не обязателен. Для тех, кто сейчас выбирает между ноутбуком и GPU-станцией, уравнение заметно изменилось.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

M5 Max и локальный AI: конкретные цифры после старта продаж

Что изменилось в архитектуре

Конкретные цифры

MLX vs llama.cpp: выбор фреймворка имеет значение

M5 Max против GPU: честное сравнение

Что реально поместится в 128 ГБ

Итог

Похожие новости

3 млрд параметров, золото на олимпиадах — Nemotron-Cascade 2

«Мы достигли AGI» — и тут же передумал: Дженсен Хуанг на подкасте Лекса Фридмана

DDR5 RDIMM дешевле RTX 3090 — переломный момент для локального AI