GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
hardwarelocal-llmdgx-sparkmac-studiostrix-halortx-6000

DGX Spark, Mac M5, Strix Halo, RTX 6000: что выбрать для локальной LLM

Сравниваем четыре главные машины 2026 года для запуска LLM дома: пропускная способность памяти, цена, токены в секунду на 120B-моделях.

Влад МакаровВлад Макаровпроверил и опубликовал
8 мин чтения
DGX Spark, Mac M5, Strix Halo, RTX 6000: что выбрать для локальной LLM

Год назад выбор железа для локальной LLM сводился к простому уравнению: «сколько 3090 ты готов воткнуть в материнку». Сейчас на столе разработчика лежит четыре разных архитектуры со сравнимыми возможностями — и каждая выигрывает у трёх остальных в разных сценариях. Тред r/LocalLLaMA, собравший 595 апвоутов за два дня, как раз о том, что никто из четвёрки не выиграл «вообще».

Вопрос «что купить под локальные модели в 2026» больше не имеет одного ответа. Зато появилось внятное разделение по сценариям.

Кто участвует

В сравнении сошлись четыре машины ценовой категории $2k–$10k, рассчитанные на одного-двух пользователей и работу с моделями до 120–200 миллиардов параметров.

NVIDIA DGX Spark — стационарный «персональный AI-суперкомпьютер» на чипе Grace Blackwell GB10. 128 ГБ унифицированной памяти LPDDR5x, 273 ГБ/с, до 1 PFLOP в FP4. После февральского повышения цены стоит $4699 — на 18% дороже, чем при выходе в октябре 2025.

Apple Mac Studio M5 Ultra — топовая версия с 256–512 ГБ унифицированной памяти и пропускной способностью около 600 ГБ/с в новой ревизии M5 (для M3 Ultra было 819 ГБ/с, M5 чуть просел по бандвидту в обмен на эффективность). Цена от $4999 и выше — комплектация в 256 ГБ обходится примерно в $7000.

AMD Strix Halo (Framework Desktop) — Ryzen AI Max+ 395 в форм-факторе мини-PC. Те же 128 ГБ при 273 ГБ/с, но за $2348 — почти вдвое дешевле DGX Spark.

NVIDIA RTX 6000 Pro Blackwell — отдельная видеокарта на 96 ГБ VRAM с пропускной способностью около 1800 ГБ/с. Цена $7500–$8500 в зависимости от партии, плюс рабочая станция вокруг неё.

Цифры на 120B

Главная боль локальных моделей сегодня — GPT-OSS 120B и аналогичные «открытые рабочие лошадки» вроде Qwen 3.6 35B A3B. Это тот размер, на котором уходит пиковая часть VRAM и становится понятно, кто реально умеет считать.

СистемаЦенаПамятьПропускнаяDecode (120B)
DGX Spark$4 699128 ГБ273 ГБ/с38,55 tok/s
Strix Halo (Framework)$2 348128 ГБ273 ГБ/с34,13 tok/s
Mac Studio M3 Ultra$4 999+256 ГБ819 ГБ/с70,79 tok/s
3× RTX 3090 (DIY)~$2 40072 ГБ936 ГБ/с124 tok/s

Источник: Hardware-Corner, апрель 2026.

Картина сразу разрушает несколько мифов. DGX Spark, на который многие ставили после CES, на токенгенерации проигрывает старому Mac Studio почти в два раза. Сборка из трёх подержанных RTX 3090 за $2400 уделывает всех — но требует 1050 Вт под нагрузкой и навыков сисадмина для настройки. Strix Halo за половину цены DGX Spark отдаёт всего ~10% производительности на токенгенерации.

Но есть нюанс. На префиле (обработке длинного промпта) расклад другой: DGX Spark выдаёт 1723 tok/s, Strix Halo — 340 tok/s, то есть в пять раз медленнее. Если вы кормите модели большими контекстами — судебными делами, кодовыми базами на 100k строк, длинными PDF — это критично.

Где какая машина побеждает

DGX Spark выигрывает там, где важна CUDA-экосистема. Если ваш ежедневный стек — Docker-контейнеры NVIDIA, TensorRT-LLM, fine-tune пайплайны на PyTorch с расчётом на дальнейший деплой в датацентр на H100/B200 — у Spark одинаковый софт от стола до облака. По бенчмаркам StorageReview, на fine-tune Llama 3.1 8B FP4 машина выдаёт 924 tok/s, на Qwen3 Coder 30B FP8 — 483 tok/s. На этом фронте Apple и AMD пока проигрывают.

Mac Studio M5 Ultra правит инференсом длинных диалогов. Высокая пропускная способность памяти даёт лучшие токены в секунду на большой одиночной сессии. Если вы пишете книгу, отлаживаете гигантский промпт или хотите гонять Qwen3.6 35B как локального коллегу — Mac Studio даст самый плавный опыт. Минус — экосистема MLX и llama.cpp всё ещё отстаёт от CUDA по охвату.

Strix Halo — для бережливых. Та же память (128 ГБ), та же пропускная способность (273 ГБ/с), та же токенгенерация на 120B (34 vs 38 tok/s) — но за $2348. Главная цена — софт: ROCm у AMD заметно зрелее, чем год назад, но всё ещё не CUDA. Если у вас не критично иметь готовый из коробки стек, и вы готовы периодически ловить баги — Framework Desktop становится лучшей сделкой за деньги.

RTX 6000 Pro Blackwell — для тех, кто реально упирается в скорость. Одна карта на 96 ГБ VRAM при 1800 ГБ/с пропускной способности по умолчанию даёт паритет с DGX Spark на префиле и обгоняет всех остальных на токенгенерации. Минус — цена. Если вы зарабатываете моделью больше $5–10 тысяч в месяц, такая карта окупается за пару кварталов. Если просто хочется поиграть с 120B — выглядит как излишество.

Маленький трюк, который меняет расклад

Самая интересная находка апреля 2026 — гибридные сборки. Команда EXO Labs показала, что если связать DGX Spark с Mac Studio M3 Ultra по сети 10GbE, разделив на них стадии «префил» и «декод», получается 2,8-кратное ускорение по сравнению с одиночным Mac Studio.

Идея простая: Spark отлично жуёт длинные промпты на префиле благодаря Blackwell, Mac летает на токенгенерации благодаря пропускной способности памяти. Между ними остаётся только пробросить KV-кеш — что они и делают.

Это нишевая история, но она хорошо иллюстрирует общую мысль: больше не существует «единственно правильной» машины для локальной LLM. Есть набор инструментов под разные стадии вычисления.

Что не учитывают спецификации

Память и пропускная способность — это только верхушка. На реальный опыт сильно влияют три вещи, которые редко попадают в таблицы.

Первое — термоустойчивость. У DGX Spark, как пишет Jeff Geerling, есть склонность к throttling и принудительным перезагрузкам при длительных нагрузках. Mac Studio в этом плане надёжнее за счёт более консервативного TDP.

Второе — софтверная поддержка. DGX OS гарантирует поддержку только на два года. MacOS и Linux на Strix Halo — на десятилетие вперёд.

Третье — реальная стоимость. К $4699 за DGX Spark добавляется мониторинг, периферия, ИБП и, главное, время на отладку ARM64-сборок Python-пакетов, у которых не всегда есть готовые wheels.

Кому что брать

Энтузиасту с бюджетом до $3k: Framework Desktop на Strix Halo. Или подержанные 3× RTX 3090 — если готовы возиться. Mac Mini M4 Pro 64 ГБ как вариант начального уровня для моделей до 30B.

Профессионалу-разработчику ($5–10k): DGX Spark, если впереди миграция в датацентр. Mac Studio M5 Ultra с 256 ГБ, если основной кейс — длинные сессии с одной моделью.

Студии или маленькой компании ($10k+): RTX 6000 Pro Blackwell как primary GPU, плюс отдельный Mac Studio M5 для пользовательских задач. Гибридная схема с разделением префила и декода окупает себя на больших промптах.

Тому, кто только пробует: Mac Mini M4 Pro 64 ГБ за $2199 — за эти деньги можно прогнать Qwen3.6 27B при q4 и понять, нужна ли вам вообще локальная LLM.

Главное, что показало последнее сравнение: эпоха «один компьютер для всего» закончилась. Локальная LLM в 2026 — это инфраструктурная задача, а не покупка коробки.

Похожие новости

Листайте вниз

для загрузки следующей статьи