ZAYA1-8B: первая фронтирная MoE-модель, обученная полностью на AMD
Zyphra выпустила ZAYA1-8B — модель с 760M активных параметров, обученную на 1024 узлах AMD MI300x. Конкурирует с DeepSeek V3.2 и Claude 4.5 Sonnet на математике и коде.

Если вы откроете Hugging Face и посмотрите на цифры производительности ZAYA1-8B, вы увидите модель с 760 миллионов активных параметров (8.4B всего), которая на математике соревнуется с DeepSeek V3.2 и Claude 4.5 Sonnet. Это нормально для 2026 года — компактные MoE-модели догоняют гигантов. Необычно другое: ZAYA1 целиком обучен на AMD-железе, без единого NVIDIA GPU в пайплайне. Кажется, монополия зелёных в AI-обучении наконец треснула.
Что выпустила Zyphra
6 мая стартап Zyphra из Сан-Франциско опубликовал ZAYA1-8B — небольшую mixture-of-experts модель, которая работает в режиме reasoning-агента. Цифры впечатляющие:
- HMMT'25 (математика): 89.6% с Markovian RSA против 88.3% у Claude 4.5 Sonnet и GPT-5 High
- APEX-shortlist (extra-high TTC): обходит DeepSeek V3.2 и GPT-OSS-120B
- Активных параметров: 760M (всего 8.4B)
- Лицензия: Apache 2.0
В сравнении с открытой Mistral-Small-4-119B — модель в 14 раз больше, и ZAYA1-8B её перегоняет на математических и кодинговых бенчмарках. На GPQA Diamond, AIME, IFEval и LiveCodeBench модель держится в одной лиге с открытыми frontier-моделями вроде Qwen3-A22B.
Это пример того, что в индустрии называют «intelligence density» — интеллект на параметр. Zyphra оптимизировала всё ради одной цели: вытащить из 760M активных параметров максимум.
Почему это важно для AMD
Уникальность ZAYA1 не в бенчмарках — таких моделей выходит по пять штук в неделю. Уникальность в том, как её обучали:
| Параметр | Значение |
|---|---|
| GPU-кластер | 1024 узла AMD Instinct MI300x |
| Сеть | AMD Pensando Pollara |
| Партнёр по инфраструктуре | IBM (custom training cluster) |
| Архитектура | Compressed Convolutional Attention + MLP-роутер |
| Test-time compute | Markovian RSA (новая техника Zyphra) |
До ZAYA1 ни одна frontier-модель не обучалась полностью на AMD. NVIDIA де-факто монополизировала AI-обучение через CUDA и сетевой стек NVLink/InfiniBand. Альтернативы на бумаге существовали — AMD ROCm, Intel Gaudi, Cerebras — но все попытки обучать на них фронтирные модели либо проваливались, либо требовали гибридного железа.
AMD здесь сделала шаг, который индустрия ждала года три: показала, что MI300x плюс Pensando-сеть закрывает все требования стека для современного MoE-обучения. Это не просто инференсный GPU, как многие до сих пор воспринимают MI-серию.
Архитектурные новинки
Zyphra применила три собственных решения, чтобы выжать максимум из плотности:
Compressed Convolutional Attention (CCA) — модификация attention, которая сжимает ключи и значения через свёртку перед attention-операцией. Это снижает вычислительную сложность без существенной потери качества. Архитектура опубликована в статье Zyphra на arXiv.
MLP-based роутер — вместо стандартной линейной маршрутизации экспертов в MoE используется небольшая MLP-сеть. По данным Zyphra, это стабилизирует обучение и улучшает балансировку нагрузки между экспертами.
Learned residual scaling — вместо фиксированных коэффициентов в residual-связях используются обучаемые параметры. Контролирует рост норм через глубину сети при пренебрежимо малом росте числа параметров.
Главная фишка модели — Markovian RSA. Это новая техника test-time compute, которая объединяет идеи параллельной генерации (RSA) и markovian thinking (рассуждение чанками фиксированной длины с передачей только хвоста контекста дальше). Результат — модель может рассуждать сколь угодно долго, но контекстное окно остаётся ограниченным.
С Markovian RSA на бюджете в 40К токенов промежуточных рассуждений ZAYA1-8B приближается к открытым frontier-моделям. С extra-high TTC (5.5M токенов на проблему) обходит DeepSeek V3.2 и GPT OSS-120B на APEX-shortlist.
Пайплайн пост-тренинга
Zyphra описывает пять стадий пост-тренинга:
- SFT с базовыми навыками: чат, instruction following, код, математика, TTC
- Reasoning warmup: математика, логика, головоломки + TTC-промпты
- Большая фаза RLVE-Gym с динамической сложностью задач
- Math + code RL для углубления знаний
- Лёгкий RLHF/RLAIF для chat-навыков и стиля
Любопытно, что Zyphra специально обучала модель понимать harness Markovian RSA — то есть TTC-схема не просто подключена при инференсе, а внедрена в само обучение. Когда команда применила тот же Markovian RSA к Qwen3-4B-Thinking, прирост оказался гораздо меньше. Это намёк на важную идею: пост-тренинг и harness нужно проектировать совместно.
Что это значит для рынка
Для AMD это маркетинговая победа долгожданного масштаба. Несколько лет компания пыталась продавать MI-серию как альтернативу NVIDIA, но без громких success stories. Теперь есть конкретный кейс: 1024 узла, frontier-уровень, открытая лицензия. Любая лаборатория, которая колеблется между H100 и MI300x, может посмотреть на ZAYA1 и понять — да, оно работает.
Для open source-сообщества это очередной пример того, что небольшие модели с умным пост-тренингом могут конкурировать с гигантами. Apache 2.0 + 8.4B параметров — это весовая категория, которая помещается на одну RTX PRO 6000 в FP8. Локальный запуск возможен.
Для NVIDIA это пока не угроза, но первый звоночек. Маржа NVIDIA в AI-датацентрах построена на том, что у них нет реальной альтернативы. ZAYA1 показывает, что альтернатива есть — она дороже в адаптации (CUDA-стек удобнее ROCm), но работоспособна.
Где попробовать
ZAYA1-8B доступна в трёх местах:
- Веса и tokenizer на Hugging Face под Apache 2.0
- Serverless endpoint на Zyphra Cloud
- Технический отчёт на zyphra.com/zaya1-8b-technical-report
Для локального запуска модель помещается в 16-24GB VRAM в зависимости от квантизации. На MacBook Pro M5 Max с 128GB unified memory можно гонять Markovian RSA без квантизации. На RTX PRO 6000 — тоже без проблем.
Выводы
ZAYA1-8B — это не очередная модель «как Claude, но открытая». Это первая открытая модель, обученная целиком на AMD, и сам факт этого важнее бенчмарков. На фоне сделок на сотни миллиардов между Anthropic и Google за TPU, между Anthropic и SpaceX за NVIDIA — открытая лаборатория показывает, что обучать фронтирные модели можно и на других платформах.
Для практиков прямо сейчас это значит вот что. Если вам нужна локальная модель для математики и кода — ZAYA1-8B стоит попробовать. Если вы решаете, на каком железе строить новую обучающую инфраструктуру — теперь у MI300x есть production-доказательство. И если вы делаете ставку на NVIDIA-зависимость в долгую — стоит хотя бы изучить, что и как сделала Zyphra.
В итоге, монополия на AI-обучение наконец впервые показала трещину — и треснула она не от усилий гигантов, а от стартапа из Сан-Франциско.


