ZAYA1-8B: первая фронтирная MoE-модель, обученная полностью на AMD

Zyphra выпустила ZAYA1-8B — модель с 760M активных параметров, обученную на 1024 узлах AMD MI300x. Конкурирует с DeepSeek V3.2 и Claude 4.5 Sonnet на математике и коде.

Если вы откроете Hugging Face и посмотрите на цифры производительности ZAYA1-8B, вы увидите модель с 760 миллионов активных параметров (8.4B всего), которая на математике соревнуется с DeepSeek V3.2 и Claude 4.5 Sonnet. Это нормально для 2026 года — компактные MoE-модели догоняют гигантов. Необычно другое: ZAYA1 целиком обучен на AMD-железе, без единого NVIDIA GPU в пайплайне. Кажется, монополия зелёных в AI-обучении наконец треснула.

Что выпустила Zyphra

6 мая стартап Zyphra из Сан-Франциско опубликовал ZAYA1-8B — небольшую mixture-of-experts модель, которая работает в режиме reasoning-агента. Цифры впечатляющие:

HMMT'25 (математика): 89.6% с Markovian RSA против 88.3% у Claude 4.5 Sonnet и GPT-5 High
APEX-shortlist (extra-high TTC): обходит DeepSeek V3.2 и GPT-OSS-120B
Активных параметров: 760M (всего 8.4B)
Лицензия: Apache 2.0

В сравнении с открытой Mistral-Small-4-119B — модель в 14 раз больше, и ZAYA1-8B её перегоняет на математических и кодинговых бенчмарках. На GPQA Diamond, AIME, IFEval и LiveCodeBench модель держится в одной лиге с открытыми frontier-моделями вроде Qwen3-A22B.

Это пример того, что в индустрии называют «intelligence density» — интеллект на параметр. Zyphra оптимизировала всё ради одной цели: вытащить из 760M активных параметров максимум.

Почему это важно для AMD

Уникальность ZAYA1 не в бенчмарках — таких моделей выходит по пять штук в неделю. Уникальность в том, как её обучали:

Параметр	Значение
GPU-кластер	1024 узла AMD Instinct MI300x
Сеть	AMD Pensando Pollara
Партнёр по инфраструктуре	IBM (custom training cluster)
Архитектура	Compressed Convolutional Attention + MLP-роутер
Test-time compute	Markovian RSA (новая техника Zyphra)

До ZAYA1 ни одна frontier-модель не обучалась полностью на AMD. NVIDIA де-факто монополизировала AI-обучение через CUDA и сетевой стек NVLink/InfiniBand. Альтернативы на бумаге существовали — AMD ROCm, Intel Gaudi, Cerebras — но все попытки обучать на них фронтирные модели либо проваливались, либо требовали гибридного железа.

AMD здесь сделала шаг, который индустрия ждала года три: показала, что MI300x плюс Pensando-сеть закрывает все требования стека для современного MoE-обучения. Это не просто инференсный GPU, как многие до сих пор воспринимают MI-серию.

Архитектурные новинки

Zyphra применила три собственных решения, чтобы выжать максимум из плотности:

Compressed Convolutional Attention (CCA) — модификация attention, которая сжимает ключи и значения через свёртку перед attention-операцией. Это снижает вычислительную сложность без существенной потери качества. Архитектура опубликована в статье Zyphra на arXiv.

MLP-based роутер — вместо стандартной линейной маршрутизации экспертов в MoE используется небольшая MLP-сеть. По данным Zyphra, это стабилизирует обучение и улучшает балансировку нагрузки между экспертами.

Learned residual scaling — вместо фиксированных коэффициентов в residual-связях используются обучаемые параметры. Контролирует рост норм через глубину сети при пренебрежимо малом росте числа параметров.

Главная фишка модели — Markovian RSA. Это новая техника test-time compute, которая объединяет идеи параллельной генерации (RSA) и markovian thinking (рассуждение чанками фиксированной длины с передачей только хвоста контекста дальше). Результат — модель может рассуждать сколь угодно долго, но контекстное окно остаётся ограниченным.

С Markovian RSA на бюджете в 40К токенов промежуточных рассуждений ZAYA1-8B приближается к открытым frontier-моделям. С extra-high TTC (5.5M токенов на проблему) обходит DeepSeek V3.2 и GPT OSS-120B на APEX-shortlist.

Пайплайн пост-тренинга

Zyphra описывает пять стадий пост-тренинга:

SFT с базовыми навыками: чат, instruction following, код, математика, TTC
Reasoning warmup: математика, логика, головоломки + TTC-промпты
Большая фаза RLVE-Gym с динамической сложностью задач
Math + code RL для углубления знаний
Лёгкий RLHF/RLAIF для chat-навыков и стиля

Любопытно, что Zyphra специально обучала модель понимать harness Markovian RSA — то есть TTC-схема не просто подключена при инференсе, а внедрена в само обучение. Когда команда применила тот же Markovian RSA к Qwen3-4B-Thinking, прирост оказался гораздо меньше. Это намёк на важную идею: пост-тренинг и harness нужно проектировать совместно.

Что это значит для рынка

Для AMD это маркетинговая победа долгожданного масштаба. Несколько лет компания пыталась продавать MI-серию как альтернативу NVIDIA, но без громких success stories. Теперь есть конкретный кейс: 1024 узла, frontier-уровень, открытая лицензия. Любая лаборатория, которая колеблется между H100 и MI300x, может посмотреть на ZAYA1 и понять — да, оно работает.

Для open source-сообщества это очередной пример того, что небольшие модели с умным пост-тренингом могут конкурировать с гигантами. Apache 2.0 + 8.4B параметров — это весовая категория, которая помещается на одну RTX PRO 6000 в FP8. Локальный запуск возможен.

Для NVIDIA это пока не угроза, но первый звоночек. Маржа NVIDIA в AI-датацентрах построена на том, что у них нет реальной альтернативы. ZAYA1 показывает, что альтернатива есть — она дороже в адаптации (CUDA-стек удобнее ROCm), но работоспособна.

Где попробовать

ZAYA1-8B доступна в трёх местах:

Веса и tokenizer на Hugging Face под Apache 2.0
Serverless endpoint на Zyphra Cloud
Технический отчёт на zyphra.com/zaya1-8b-technical-report

Для локального запуска модель помещается в 16-24GB VRAM в зависимости от квантизации. На MacBook Pro M5 Max с 128GB unified memory можно гонять Markovian RSA без квантизации. На RTX PRO 6000 — тоже без проблем.

Выводы

ZAYA1-8B — это не очередная модель «как Claude, но открытая». Это первая открытая модель, обученная целиком на AMD, и сам факт этого важнее бенчмарков. На фоне сделок на сотни миллиардов между Anthropic и Google за TPU, между Anthropic и SpaceX за NVIDIA — открытая лаборатория показывает, что обучать фронтирные модели можно и на других платформах.

Для практиков прямо сейчас это значит вот что. Если вам нужна локальная модель для математики и кода — ZAYA1-8B стоит попробовать. Если вы решаете, на каком железе строить новую обучающую инфраструктуру — теперь у MI300x есть production-доказательство. И если вы делаете ставку на NVIDIA-зависимость в долгую — стоит хотя бы изучить, что и как сделала Zyphra.

В итоге, монополия на AI-обучение наконец впервые показала трещину — и треснула она не от усилий гигантов, а от стартапа из Сан-Франциско.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

ZAYA1-8B: первая фронтирная MoE-модель, обученная полностью на AMD

Что выпустила Zyphra

Почему это важно для AMD

Архитектурные новинки

Пайплайн пост-тренинга

Что это значит для рынка

Где попробовать

Выводы

Похожие новости

DeepSeek V4: триллион параметров, Engram Memory и война за кодинг

DeepSeek V4 выходит 17 февраля: что известно о новом coding-гиганте

Майк Кригер: «Через 1–3 года Claude станет автономным коллегой»