DGX Spark, Mac M5, Strix Halo, RTX 6000: что выбрать для локальной LLM
Сравниваем четыре главные машины 2026 года для запуска LLM дома: пропускная способность памяти, цена, токены в секунду на 120B-моделях.

Год назад выбор железа для локальной LLM сводился к простому уравнению: «сколько 3090 ты готов воткнуть в материнку». Сейчас на столе разработчика лежит четыре разных архитектуры со сравнимыми возможностями — и каждая выигрывает у трёх остальных в разных сценариях. Тред r/LocalLLaMA, собравший 595 апвоутов за два дня, как раз о том, что никто из четвёрки не выиграл «вообще».
Вопрос «что купить под локальные модели в 2026» больше не имеет одного ответа. Зато появилось внятное разделение по сценариям.
Кто участвует
В сравнении сошлись четыре машины ценовой категории $2k–$10k, рассчитанные на одного-двух пользователей и работу с моделями до 120–200 миллиардов параметров.
NVIDIA DGX Spark — стационарный «персональный AI-суперкомпьютер» на чипе Grace Blackwell GB10. 128 ГБ унифицированной памяти LPDDR5x, 273 ГБ/с, до 1 PFLOP в FP4. После февральского повышения цены стоит $4699 — на 18% дороже, чем при выходе в октябре 2025.
Apple Mac Studio M5 Ultra — топовая версия с 256–512 ГБ унифицированной памяти и пропускной способностью около 600 ГБ/с в новой ревизии M5 (для M3 Ultra было 819 ГБ/с, M5 чуть просел по бандвидту в обмен на эффективность). Цена от $4999 и выше — комплектация в 256 ГБ обходится примерно в $7000.
AMD Strix Halo (Framework Desktop) — Ryzen AI Max+ 395 в форм-факторе мини-PC. Те же 128 ГБ при 273 ГБ/с, но за $2348 — почти вдвое дешевле DGX Spark.
NVIDIA RTX 6000 Pro Blackwell — отдельная видеокарта на 96 ГБ VRAM с пропускной способностью около 1800 ГБ/с. Цена $7500–$8500 в зависимости от партии, плюс рабочая станция вокруг неё.
Цифры на 120B
Главная боль локальных моделей сегодня — GPT-OSS 120B и аналогичные «открытые рабочие лошадки» вроде Qwen 3.6 35B A3B. Это тот размер, на котором уходит пиковая часть VRAM и становится понятно, кто реально умеет считать.
| Система | Цена | Память | Пропускная | Decode (120B) |
|---|---|---|---|---|
| DGX Spark | $4 699 | 128 ГБ | 273 ГБ/с | 38,55 tok/s |
| Strix Halo (Framework) | $2 348 | 128 ГБ | 273 ГБ/с | 34,13 tok/s |
| Mac Studio M3 Ultra | $4 999+ | 256 ГБ | 819 ГБ/с | 70,79 tok/s |
| 3× RTX 3090 (DIY) | ~$2 400 | 72 ГБ | 936 ГБ/с | 124 tok/s |
Источник: Hardware-Corner, апрель 2026.
Картина сразу разрушает несколько мифов. DGX Spark, на который многие ставили после CES, на токенгенерации проигрывает старому Mac Studio почти в два раза. Сборка из трёх подержанных RTX 3090 за $2400 уделывает всех — но требует 1050 Вт под нагрузкой и навыков сисадмина для настройки. Strix Halo за половину цены DGX Spark отдаёт всего ~10% производительности на токенгенерации.
Но есть нюанс. На префиле (обработке длинного промпта) расклад другой: DGX Spark выдаёт 1723 tok/s, Strix Halo — 340 tok/s, то есть в пять раз медленнее. Если вы кормите модели большими контекстами — судебными делами, кодовыми базами на 100k строк, длинными PDF — это критично.
Где какая машина побеждает
DGX Spark выигрывает там, где важна CUDA-экосистема. Если ваш ежедневный стек — Docker-контейнеры NVIDIA, TensorRT-LLM, fine-tune пайплайны на PyTorch с расчётом на дальнейший деплой в датацентр на H100/B200 — у Spark одинаковый софт от стола до облака. По бенчмаркам StorageReview, на fine-tune Llama 3.1 8B FP4 машина выдаёт 924 tok/s, на Qwen3 Coder 30B FP8 — 483 tok/s. На этом фронте Apple и AMD пока проигрывают.
Mac Studio M5 Ultra правит инференсом длинных диалогов. Высокая пропускная способность памяти даёт лучшие токены в секунду на большой одиночной сессии. Если вы пишете книгу, отлаживаете гигантский промпт или хотите гонять Qwen3.6 35B как локального коллегу — Mac Studio даст самый плавный опыт. Минус — экосистема MLX и llama.cpp всё ещё отстаёт от CUDA по охвату.
Strix Halo — для бережливых. Та же память (128 ГБ), та же пропускная способность (273 ГБ/с), та же токенгенерация на 120B (34 vs 38 tok/s) — но за $2348. Главная цена — софт: ROCm у AMD заметно зрелее, чем год назад, но всё ещё не CUDA. Если у вас не критично иметь готовый из коробки стек, и вы готовы периодически ловить баги — Framework Desktop становится лучшей сделкой за деньги.
RTX 6000 Pro Blackwell — для тех, кто реально упирается в скорость. Одна карта на 96 ГБ VRAM при 1800 ГБ/с пропускной способности по умолчанию даёт паритет с DGX Spark на префиле и обгоняет всех остальных на токенгенерации. Минус — цена. Если вы зарабатываете моделью больше $5–10 тысяч в месяц, такая карта окупается за пару кварталов. Если просто хочется поиграть с 120B — выглядит как излишество.
Маленький трюк, который меняет расклад
Самая интересная находка апреля 2026 — гибридные сборки. Команда EXO Labs показала, что если связать DGX Spark с Mac Studio M3 Ultra по сети 10GbE, разделив на них стадии «префил» и «декод», получается 2,8-кратное ускорение по сравнению с одиночным Mac Studio.
Идея простая: Spark отлично жуёт длинные промпты на префиле благодаря Blackwell, Mac летает на токенгенерации благодаря пропускной способности памяти. Между ними остаётся только пробросить KV-кеш — что они и делают.
Это нишевая история, но она хорошо иллюстрирует общую мысль: больше не существует «единственно правильной» машины для локальной LLM. Есть набор инструментов под разные стадии вычисления.
Что не учитывают спецификации
Память и пропускная способность — это только верхушка. На реальный опыт сильно влияют три вещи, которые редко попадают в таблицы.
Первое — термоустойчивость. У DGX Spark, как пишет Jeff Geerling, есть склонность к throttling и принудительным перезагрузкам при длительных нагрузках. Mac Studio в этом плане надёжнее за счёт более консервативного TDP.
Второе — софтверная поддержка. DGX OS гарантирует поддержку только на два года. MacOS и Linux на Strix Halo — на десятилетие вперёд.
Третье — реальная стоимость. К $4699 за DGX Spark добавляется мониторинг, периферия, ИБП и, главное, время на отладку ARM64-сборок Python-пакетов, у которых не всегда есть готовые wheels.
Кому что брать
Энтузиасту с бюджетом до $3k: Framework Desktop на Strix Halo. Или подержанные 3× RTX 3090 — если готовы возиться. Mac Mini M4 Pro 64 ГБ как вариант начального уровня для моделей до 30B.
Профессионалу-разработчику ($5–10k): DGX Spark, если впереди миграция в датацентр. Mac Studio M5 Ultra с 256 ГБ, если основной кейс — длинные сессии с одной моделью.
Студии или маленькой компании ($10k+): RTX 6000 Pro Blackwell как primary GPU, плюс отдельный Mac Studio M5 для пользовательских задач. Гибридная схема с разделением префила и декода окупает себя на больших промптах.
Тому, кто только пробует: Mac Mini M4 Pro 64 ГБ за $2199 — за эти деньги можно прогнать Qwen3.6 27B при q4 и понять, нужна ли вам вообще локальная LLM.
Главное, что показало последнее сравнение: эпоха «один компьютер для всего» закончилась. Локальная LLM в 2026 — это инфраструктурная задача, а не покупка коробки.

