GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
deepseekрелизhuaweiascendopen-sourcemoe

DeepSeek V4-Flash вышел: 284B на Ascend и $0.14 за 1M токенов

DeepSeek выпустила V4-Flash — MoE на 284B параметров с активными 13B, инференс на Huawei Ascend, MIT-лицензия. Цена в 5–7 раз дешевле GPT-5.5.

Влад МакаровВлад Макаровпроверил и опубликовал
6 мин чтения
DeepSeek V4-Flash вышел: 284B на Ascend и $0.14 за 1M токенов

После нескольких месяцев задержек DeepSeek наконец показала V4. Релиз вышел 23 апреля и сразу в двух размерах: V4-Pro (1,6 триллиона параметров, 49B активных) и V4-Flash (284 миллиарда, 13B активных). Главное в этой истории — не размеры. Главное — что V4 умеет крутиться на Huawei Ascend без NVIDIA, что цена опустилась до $0.14 за миллион входных токенов на Flash, и что вся модель лежит под MIT-лицензией. Это первый по-настоящему серьёзный шаг к тому, чтобы китайский AI-стек работал без американских чипов.

Что нового

V4-Flash построен как MoE на 284B общих параметров с 13B активных на токен. Контекст — 1 миллион токенов. Тренировка и базовая часть инференса при необходимости работают на Huawei Ascend supernode-кластерах; компания специально пересобрала kernel'ы под TileLang DSL, чтобы не быть привязанной к CUDA, и разработала fused MoE-kernel под названием MegaMoE для коммуникации между экспертами на Ascend.

По бенчмаркам V4-Flash уверенно держится в верхней части open-source-сегмента — обгоняет Qwen3.6-Max в большинстве кодинг-тестов и приближается к Kimi K2.6. По сравнению с собственным V4-Pro — отстаёт примерно на 3–5 пунктов в reasoning-задачах, но в 5 раз дешевле. По сравнению с GPT-5.5 — медленнее, отстаёт на 8–15 пунктов в SWE-Bench-классе задач, но в 5–7 раз дешевле.

Технические параметры:

  • Архитектура: MoE 284B / 13B активных
  • Контекст: 1 000 000 токенов
  • Точность инференса: MXFP4 (open low-precision формат)
  • Hardware: Nvidia H100/H200, Huawei Ascend 950PR
  • Лицензия: MIT
  • Код: TileLang DSL вместо CUDA
  • Дата релиза: 23 апреля 2026

Цены

Это самая громкая часть релиза. DeepSeek продолжает традицию демпинга, но V4-Flash идёт ещё дальше:

МодельInput ($/1M)Output ($/1M)Контекст
DeepSeek V4-Flash$0.14$0.281M
DeepSeek V4-Pro$1.74$3.481M
GPT-5.5 (input/output)~$1.00~$2.00400K
Claude Opus 4.7$15$751M
Kimi K2.6$1.00$3.86256K

Цена $0.14 за миллион входных токенов — это уровень, на котором экономика агентов меняется качественно. Если ваш агент жуёт 10M токенов в день (что для Claude Code-подобных сценариев типично), на V4-Flash это $1.4 в день вместо $10 на GPT-5.5 или $150 на Claude Opus. Reuters подтвердил, что Huawei готовится отгрузить 750 000 чипов Ascend 950PR в этом году — этого хватает на инференс для глобального трафика DeepSeek с запасом.

Что значит «работает на Ascend»

Тут есть важный нюанс. V4-Flash тренировалась всё ещё на Nvidia (Hopper-поколение, по информации 36Kr и ChinaTalk). Но архитектурно и kernel'но она специально подготовлена так, чтобы инференс работал на Ascend нативно, через MXFP4-формат и MegaMoE-kernel. По словам команды, V4-Pro — даже учитывая, что Pro-tier сейчас лимитирован по throughput из-за нехватки Ascend-supernode'ов — будет дешеветь по мере поставок чипов во второй половине 2026.

Технически это означает, что DeepSeek сделала первую крупную модель, которая написана не только на CUDA. TileLang — это domain-specific language от MIT и DeepSeek, который компилируется под несколько hardware-таргетов: NVIDIA, Huawei Ascend, Cambricon, Biren. Это серьёзный сдвиг — раньше любая китайская лаборатория делала вид, что независима от Nvidia, но писала всё под CUDA.

Сравнение с предыдущей версией

V3 был выпущен в декабре 2024. По сравнению с ним V4-Flash — это:

  • В 2 раза больше общих параметров (284B vs 145B у V3-base)
  • Та же активная часть (~13B), но более эффективная за счёт нового MoE-router
  • В 4 раза больше контекста (1M vs 256K)
  • В 2 раза дешевле на input
  • Новая стек-инфраструктура (TileLang, MegaMoE, MXFP4)

В кодинге V4-Flash значительно лучше, чем V3. По данным китайского блогера 大模型观测员, который тестировал V4 на четырёх engineering-проектах, Flash «не сильно отстаёт от Pro по знаниям общего профиля», но проседает на edge cases и редких багах. В UI-задачах обе версии «не выдающиеся, но базово рабочие» — для vibe coding нужно много раз прогонять.

Для разработчиков

Включить V4-Flash через API можно прямо с сайта DeepSeek или через OpenRouter. Поддержка OpenAI-совместимого endpoint'а — стандартная.

from openai import OpenAI

client = OpenAI(
    api_key="...",
    base_url="https://api.deepseek.com/v1"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Объясни функцию фон Мангольдта"}],
    max_tokens=1000
)

Для self-hosting вес модели лежит на Hugging Face под MIT. Запуск в FP8 требует 320–360 ГБ VRAM, в MXFP4 — около 180 ГБ. То есть полный self-host реалистичен на одном A100/H100-ноде с 8 картами.

Что это значит

Главный сюжет — не «вышла ещё одна модель». Главный сюжет — что DeepSeek успешно показала первый открытый проектный workflow «обучение на Nvidia, инференс на Huawei», и сделала это публично воспроизводимым. До этого вся индустрия делилась на «Nvidia-only» и «декларативно-китайские, но втихую на Nvidia». V4-Flash — первая модель, которая ходит на Ascend с реальным production-throughput.

Для рынка LLM это значит, что цены будут падать дальше. $0.14 за миллион токенов — это не дно, это новая планка для open-source. Конкуренты в Китае (Qwen, Kimi, MiniMax, GLM) будут вынуждены подтягиваться по цене или предлагать лучшее качество. А американский рынок впервые за два года получает реальное давление на премиум-сегмент: Claude Opus при $15/$75 за миллион выглядит особенно дорого на этом фоне.

Для геополитики это сигнал, что американский экспорт-контроль на чипы создаёт ровно тот эффект, который не хотел: китайская AI-экосистема тренируется быть независимой от NVIDIA на инфраструктурном уровне. Это медленно, дорого, неэффективно — но это работает.

Итог

Кому подойдёт: разработчикам агентов, которым нужен дешёвый long-context (1M токенов за центы); командам, которые self-host'ят модели и хотят MIT-лицензию без оговорок; исследователям, которым важна открытость весов и кода kernel'ов.

Стоит ли переключаться с GPT-5.5 / Claude: для production-кодинга на критических задачах — пока нет, V4-Flash проседает по edge cases. Для агентских пайплайнов с большим объёмом простых вызовов — да, экономия 5–10x окупает компромиссы. Для R&D и экспериментов с новыми архитектурами — однозначно стоит попробовать.

Что ожидать дальше: DeepSeek объявил, что V4-Pro подешевеет к концу 2026, когда Huawei отгрузит достаточно Ascend 950PR. Параллельно компания, по слухам, открыла внешнее финансирование — что может ускорить релиз V5 и возможной мультимодальной версии.

Похожие новости

Листайте вниз

для загрузки следующей статьи