AMD Ryzen AI Halo: 200B-параметровая модель в коробке за один штекер

AMD выходит на рынок AI mini-PC с Ryzen AI Halo на чипе Max+ 395 — 128 ГБ unified-памяти, 200B параметров локально, ROCm из коробки. Релиз во втором квартале.

«Запустить локально 200-миллиардную модель» — фраза, которая ещё в начале 2026 года требовала Mac Studio M5 Ultra за пять тысяч долларов или сборки на двух RTX 6000 Pro Blackwell. AMD на CES 2026 обещала закрыть этот зазор собственной коробкой. Через четыре месяца, к Computex, AMD Ryzen AI Halo превращается из слайдов в товарный SKU — с релизом запланированным во втором квартале и партнёрской волной mini-PC от Sapphire, Minisforum и других.

Что произошло

5 января на CES в Лас-Вегасе AMD впервые показала Ryzen AI Halo — собственный, AMD-брендированный mini-PC «AI developer platform». Это не процессор и не референсный дизайн для OEM-партнёров; это законченная коробка с собственным шильдиком AMD, рассчитанная на разработчиков ML и edge-AI. Внутри — Ryzen AI Max+ 395 («Strix Halo»), до 128 ГБ unified LPDDR5x-памяти, GPU с RDNA 3.5 на 60 TFLOPS, поддержка Windows и Linux, и предустановленный ROCm-стек.

В апреле-мае на Embedded World 2026 показали независимые реализации той же платформы. Sapphire выкатила прототип собственного mini-PC на Max+ 395 с 128 ГБ — причём с возможностью соединять две коробки через USB-C для удвоения AI-мощности. Minisforum показала NAS с тем же чипом и 64 ГБ памяти, заявив 126 TOPS совокупной AI-производительности. К Computex стоит ждать публичного запуска и независимого ритейла.

Что внутри

Ryzen AI Max+ 395 — это «Strix Halo», тот самый чип, который AMD представила год назад как «первый x86 с 128 ГБ unified memory». Для AI-нагрузок ключевая характеристика — именно объём общей памяти процессора и встроенной графики, а не TOPS отдельного NPU.

Компонент	Спецификация
CPU	Zen 5, 16 cores / 32 threads, до 5,1 GHz
GPU	Radeon 8060S (RDNA 3.5), 40 CU, 60 TFLOPS FP32
NPU	XDNA 2, 50 TOPS INT8
Память	До 128 ГБ LPDDR5x (unified)
TDP	45–120 Вт настраиваемый
Совокупная AI-производительность	До 126 TOPS (CPU + GPU + NPU)

Главная цифра в маркетинге — 200 миллиардов параметров локально. По официальной сноске AMD, это были тесты в LM Studio 0.3.30 на конфигурации с 128 ГБ unified memory с использованием Vulkan-сборки llama.cpp и FlashAttention. Цифра реальная, но честный читатель должен помнить два контекста. Первый — это quantized inference (Q4/Q5), а не FP16. Второй — 200B-параметровая модель в этом классе памяти означает gpt-oss-120b или сопоставимые open-weight варианты, не GPT-5.4 и не Claude Opus 4.7. Реальный таргет здесь — модели, которые иначе крутились бы в облаке, и теперь могут работать локально для compliance- или privacy-чувствительных сценариев.

ROCm-сюрприз

Самое тихое, но важное в этом запуске — софт. Параллельно с железом AMD выкатила ROCm 7.2 с поддержкой Ryzen AI 400 Series и интеграцией в ComfyUI. По собственным данным AMD, за 2025 год AI-производительность ROCm выросла «до пяти раз», количество поддерживаемых платформ удвоилось, а скачивания выросли в десять раз год к году.

Если эти цифры держатся, ROCm перестаёт быть «грустной версией CUDA» и становится полноценным стеком для локальной разработки. Adrenalin Edition теперь поставляется с AI Bundle — однокликовой установкой PyTorch на Windows плюс готовых приложений для image generation и локальных LLM. Для Halo это означает «открыл коробку, через 10 минут уже инференсишь Llama 4 в ComfyUI».

Кому это нужно

Категория «AI mini-PC» в начале 2026 года уже не пустая. Apple держит верхний сегмент с Mac Studio M5 Ultra и его 256 ГБ unified memory — но это другая ценовая лига и другая экосистема. На стороне x86 конкурируют NVIDIA с DGX Spark (Blackwell + 128 ГБ unified, $4 000+), Intel со своим Lunar Lake-S дизайном для развёртывания Llama-моделей, и стая китайских mini-PC на Strix Halo от Acemagic, Minisforum, GMKtec.

Платформа	Память	Сильная сторона	Слабая сторона
AMD Ryzen AI Halo	128 ГБ unified	x86, ROCm + Linux, цена	NPU слабее Apple Neural Engine
Apple Mac Studio M5 Ultra	до 256 ГБ unified	Зрелый MLX/CoreML, экосистема	Цена $5K+, macOS only
NVIDIA DGX Spark	128 ГБ unified	CUDA-стек, Grace+Blackwell	Ограниченная доступность, дорогой
Acemagic/Minisforum (Strix Halo OEM)	64–128 ГБ	Доступность, разнообразие SKU	Нет AMD-бренда и поддержки

Уникальная ниша Halo — это сочетание трёх вещей: x86 с полной совместимостью со стандартным PyTorch/Linux-стеком, unified memory достаточная для серьёзных моделей, и at-launch-готовый ROCm-софт. Для исследователя, который хочет крутить локально 30B-70B модели без облачного счёта, это пока единственный вариант с поддержкой производителя из коробки.

Бизнес-кейс шире. У edge-AI и privacy-чувствительных сценариев — медицина, финансы, госсектор, on-prem RAG-системы — растёт спрос на локальный inference, который не уходит в облако. Большой рынок, но с высоким порогом входа: до сих пор «локальный сервер с большой моделью» означал собирать самому. AMD упаковывает это в один SKU и делает доступным через стандартные каналы.

Где это споткнётся

Главный вопрос — цена. AMD на CES не назвала цифру, отложив до релиза во втором квартале. Аналитики оценивают вилку в $1 500–$2 500 за конфигурацию с 128 ГБ памяти. Если AMD удержит её в этом коридоре, продукт пойдёт. Если выскочит выше — Apple и NVIDIA забирают потолок, а Acemagic/Minisforum со Strix Halo по $1 200 без AMD-шильдика забирают пол.

Второй риск — софт. ROCm растёт быстро, но всё ещё отстаёт от CUDA на критичных оптимизациях inference. vLLM, SGLang, TensorRT-LLM-эквиваленты — каждый из этих фреймворков требует доработок под ROCm. AMD понимает и активно идёт навстречу community, но catch-up пока не закрыт.

Третий — NPU. 50 TOPS XDNA 2 — это меньше, чем у Apple Neural Engine 5-го поколения и значительно меньше, чем у Qualcomm Hexagon в Snapdragon X Elite Gen 2. Для inference больших моделей на GPU+CPU это не критично; для специфичных on-device AI-фич (распознавание речи, анализ изображений в реальном времени) — да.

Что дальше

Релиз Halo во втором квартале 2026 года — это начало новой категории, не её зрелое состояние. Если AMD удержит обещанную цену и софт-подержку, к концу года появится полноценная экосистема развёртывания локальных моделей: Halo + ROCm + готовые LM Studio, Ollama, vLLM-стеки. Это не убьёт облачные API — но снимет с них значимую долю трафика для use cases, где privacy и стоимость важнее последних 5% качества.

Для разработчиков AI-приложений главный вывод простой: к концу 2026 года «локальный inference 100B-моделей» перестанет быть hobbyist-сценарием. Это коммерчески поддержанная платформа от тройки крупных вендоров, и решение «облако или локально» становится более тонким, чем «облако всегда побеждает».

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

AMD Ryzen AI Halo: 200B-параметровая модель в коробке за один штекер

Что произошло

Что внутри

ROCm-сюрприз

Кому это нужно

Где это споткнётся

Что дальше

Похожие новости

CPU-only AI: запуск нейросетей без GPU набирает обороты

1-битный Bonsai 1.7B весит 290 МБ и запускается прямо в браузере

Xiaomi 12 Pro превратили в 24/7 AI-сервер. Зачем?