DGX Spark, Mac M5, Strix Halo, RTX 6000: что выбрать для локальной LLM

Сравниваем четыре главные машины 2026 года для запуска LLM дома: пропускная способность памяти, цена, токены в секунду на 120B-моделях.

Год назад выбор железа для локальной LLM сводился к простому уравнению: «сколько 3090 ты готов воткнуть в материнку». Сейчас на столе разработчика лежит четыре разных архитектуры со сравнимыми возможностями — и каждая выигрывает у трёх остальных в разных сценариях. Тред r/LocalLLaMA, собравший 595 апвоутов за два дня, как раз о том, что никто из четвёрки не выиграл «вообще».

Вопрос «что купить под локальные модели в 2026» больше не имеет одного ответа. Зато появилось внятное разделение по сценариям.

Кто участвует

В сравнении сошлись четыре машины ценовой категории $2k–$10k, рассчитанные на одного-двух пользователей и работу с моделями до 120–200 миллиардов параметров.

NVIDIA DGX Spark — стационарный «персональный AI-суперкомпьютер» на чипе Grace Blackwell GB10. 128 ГБ унифицированной памяти LPDDR5x, 273 ГБ/с, до 1 PFLOP в FP4. После февральского повышения цены стоит $4699 — на 18% дороже, чем при выходе в октябре 2025.

Apple Mac Studio M5 Ultra — топовая версия с 256–512 ГБ унифицированной памяти и пропускной способностью около 600 ГБ/с в новой ревизии M5 (для M3 Ultra было 819 ГБ/с, M5 чуть просел по бандвидту в обмен на эффективность). Цена от $4999 и выше — комплектация в 256 ГБ обходится примерно в $7000.

AMD Strix Halo (Framework Desktop) — Ryzen AI Max+ 395 в форм-факторе мини-PC. Те же 128 ГБ при 273 ГБ/с, но за $2348 — почти вдвое дешевле DGX Spark.

NVIDIA RTX 6000 Pro Blackwell — отдельная видеокарта на 96 ГБ VRAM с пропускной способностью около 1800 ГБ/с. Цена $7500–$8500 в зависимости от партии, плюс рабочая станция вокруг неё.

Цифры на 120B

Главная боль локальных моделей сегодня — GPT-OSS 120B и аналогичные «открытые рабочие лошадки» вроде Qwen 3.6 35B A3B. Это тот размер, на котором уходит пиковая часть VRAM и становится понятно, кто реально умеет считать.

Система	Цена	Память	Пропускная	Decode (120B)
DGX Spark	$4 699	128 ГБ	273 ГБ/с	38,55 tok/s
Strix Halo (Framework)	$2 348	128 ГБ	273 ГБ/с	34,13 tok/s
Mac Studio M3 Ultra	$4 999+	256 ГБ	819 ГБ/с	70,79 tok/s
3× RTX 3090 (DIY)	~$2 400	72 ГБ	936 ГБ/с	124 tok/s

Источник: Hardware-Corner, апрель 2026.

Картина сразу разрушает несколько мифов. DGX Spark, на который многие ставили после CES, на токенгенерации проигрывает старому Mac Studio почти в два раза. Сборка из трёх подержанных RTX 3090 за $2400 уделывает всех — но требует 1050 Вт под нагрузкой и навыков сисадмина для настройки. Strix Halo за половину цены DGX Spark отдаёт всего ~10% производительности на токенгенерации.

Но есть нюанс. На префиле (обработке длинного промпта) расклад другой: DGX Spark выдаёт 1723 tok/s, Strix Halo — 340 tok/s, то есть в пять раз медленнее. Если вы кормите модели большими контекстами — судебными делами, кодовыми базами на 100k строк, длинными PDF — это критично.

Где какая машина побеждает

DGX Spark выигрывает там, где важна CUDA-экосистема. Если ваш ежедневный стек — Docker-контейнеры NVIDIA, TensorRT-LLM, fine-tune пайплайны на PyTorch с расчётом на дальнейший деплой в датацентр на H100/B200 — у Spark одинаковый софт от стола до облака. По бенчмаркам StorageReview, на fine-tune Llama 3.1 8B FP4 машина выдаёт 924 tok/s, на Qwen3 Coder 30B FP8 — 483 tok/s. На этом фронте Apple и AMD пока проигрывают.

Mac Studio M5 Ultra правит инференсом длинных диалогов. Высокая пропускная способность памяти даёт лучшие токены в секунду на большой одиночной сессии. Если вы пишете книгу, отлаживаете гигантский промпт или хотите гонять Qwen3.6 35B как локального коллегу — Mac Studio даст самый плавный опыт. Минус — экосистема MLX и llama.cpp всё ещё отстаёт от CUDA по охвату.

Strix Halo — для бережливых. Та же память (128 ГБ), та же пропускная способность (273 ГБ/с), та же токенгенерация на 120B (34 vs 38 tok/s) — но за $2348. Главная цена — софт: ROCm у AMD заметно зрелее, чем год назад, но всё ещё не CUDA. Если у вас не критично иметь готовый из коробки стек, и вы готовы периодически ловить баги — Framework Desktop становится лучшей сделкой за деньги.

RTX 6000 Pro Blackwell — для тех, кто реально упирается в скорость. Одна карта на 96 ГБ VRAM при 1800 ГБ/с пропускной способности по умолчанию даёт паритет с DGX Spark на префиле и обгоняет всех остальных на токенгенерации. Минус — цена. Если вы зарабатываете моделью больше $5–10 тысяч в месяц, такая карта окупается за пару кварталов. Если просто хочется поиграть с 120B — выглядит как излишество.

Маленький трюк, который меняет расклад

Самая интересная находка апреля 2026 — гибридные сборки. Команда EXO Labs показала, что если связать DGX Spark с Mac Studio M3 Ultra по сети 10GbE, разделив на них стадии «префил» и «декод», получается 2,8-кратное ускорение по сравнению с одиночным Mac Studio.

Идея простая: Spark отлично жуёт длинные промпты на префиле благодаря Blackwell, Mac летает на токенгенерации благодаря пропускной способности памяти. Между ними остаётся только пробросить KV-кеш — что они и делают.

Это нишевая история, но она хорошо иллюстрирует общую мысль: больше не существует «единственно правильной» машины для локальной LLM. Есть набор инструментов под разные стадии вычисления.

Что не учитывают спецификации

Память и пропускная способность — это только верхушка. На реальный опыт сильно влияют три вещи, которые редко попадают в таблицы.

Первое — термоустойчивость. У DGX Spark, как пишет Jeff Geerling, есть склонность к throttling и принудительным перезагрузкам при длительных нагрузках. Mac Studio в этом плане надёжнее за счёт более консервативного TDP.

Второе — софтверная поддержка. DGX OS гарантирует поддержку только на два года. MacOS и Linux на Strix Halo — на десятилетие вперёд.

Третье — реальная стоимость. К $4699 за DGX Spark добавляется мониторинг, периферия, ИБП и, главное, время на отладку ARM64-сборок Python-пакетов, у которых не всегда есть готовые wheels.

Кому что брать

Энтузиасту с бюджетом до $3k: Framework Desktop на Strix Halo. Или подержанные 3× RTX 3090 — если готовы возиться. Mac Mini M4 Pro 64 ГБ как вариант начального уровня для моделей до 30B.

Профессионалу-разработчику ($5–10k): DGX Spark, если впереди миграция в датацентр. Mac Studio M5 Ultra с 256 ГБ, если основной кейс — длинные сессии с одной моделью.

Студии или маленькой компании ($10k+): RTX 6000 Pro Blackwell как primary GPU, плюс отдельный Mac Studio M5 для пользовательских задач. Гибридная схема с разделением префила и декода окупает себя на больших промптах.

Тому, кто только пробует: Mac Mini M4 Pro 64 ГБ за $2199 — за эти деньги можно прогнать Qwen3.6 27B при q4 и понять, нужна ли вам вообще локальная LLM.

Главное, что показало последнее сравнение: эпоха «один компьютер для всего» закончилась. Локальная LLM в 2026 — это инфраструктурная задача, а не покупка коробки.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

DGX Spark, Mac M5, Strix Halo, RTX 6000: что выбрать для локальной LLM

Кто участвует

Цифры на 120B

Где какая машина побеждает

Маленький трюк, который меняет расклад

Что не учитывают спецификации

Кому что брать

Похожие новости

AMD Instinct MI430X: 200 TFLOPs FP64 и обещание ×6 быстрее Nvidia Rubin

Nvidia добавляет $300 к RTX 5090: GDDR7-кризис добивает рынок

NVIDIA RTX PRO 6000 подешевела на $1300: 96 ГБ GDDR7 за $7999