GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
deepseekmoepricingopen-weightslong-context

DeepSeek V4: ценовая революция в мире больших языковых моделей

DeepSeek представила V4 Flash и Pro с беспрецедентным соотношением цена/качество. Разбираем архитектуру на 1.6T параметров, контекст на миллион токенов и почему это меняет экономику ИИ.

Влад МакаровВлад Макаровпроверил и опубликовал
9 мин чтения
DeepSeek V4: ценовая революция в мире больших языковых моделей

24 апреля 2026 года китайская DeepSeek выпустила модели V4 Flash и V4 Pro — и это не просто очередной релиз. Флагманская Pro с 1.6 триллионами параметров стоит $1.74 за миллион входных токенов, что в семь раз дешевле GPT-5.5 и в шесть раз дешевле Claude Opus 4.7. При этом модель работает с контекстом на миллион токенов из коробки, распространяется под MIT-лицензей и по бенчмаркам отстаёт от абсолютных лидеров всего на три-шесть месяцев. Для разработчиков и компаний это означает одно: эксперименты с длинным контекстом и сложными агентскими задачами перестали быть привилегией тех, у кого неограниченный бюджет.

Что выпустили

DeepSeek V4 — это две модели с архитектурой Mixture-of-Experts, обе с контекстным окном на миллион токенов. V4 Flash насчитывает 284 миллиарда параметров (13 миллиардов активных), весит 160 гигабайт и теоретически может запуститься на MacBook Pro M5 с 128 гигабайтами памяти после лёгкой квантизации. V4 Pro — флагман с 1.6 триллионами параметров (49 миллиардов активных) и весом 865 гигабайт. Это крупнейшая модель с открытыми весами на момент релиза — больше, чем Kimi K2.6 (1.1T) и GLM-5.1 (754B), и более чем в два раза крупнее предыдущей версии DeepSeek V3.2 (685B).

Обе модели работают в двух режимах: non-thinking для быстрых ответов и thinking для задач, где нужно рассуждение. Во втором режиме модель выдаёт промежуточные шаги в специальных тегах <think>, что позволяет отслеживать логику и проверять, где ошибка, если что-то пошло не так. API поддерживает форматы OpenAI и Anthropic, так что миграция с Claude или GPT сводится к замене endpoint'а и названия модели.

Обучение проходило на датасете больше 32 триллионов токенов с использованием оптимизатора Muon и смешанной точности: эксперты в FP4, остальные параметры в FP8. Это дало возможность уместить огромную модель в память без значимого падения качества, что объясняет как размер весов, так и скорость инференса.

Архитектурные новшества

Главное изобретение V4 — гибридная система внимания, которая решает проблему квадратичной сложности. В классическом трансформере увеличение длины входа в два раза приводит к четырёхкратному росту вычислений — это формула O(N²). На последовательности в миллион токенов кэш ключей и значений занимает терабайты видеопамяти, что делает обработку экономически невыгодной даже для лабораторий с большими бюджетами.

DeepSeek V4 комбинирует Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). В результате при контексте в миллион токенов V4 Pro потребляет всего 27% от количества операций V3.2 на один токен и занимает 10% объёма KV-кэша. V4 Flash идёт дальше: 10% операций и 7% кэша относительно V3.2. Это не просто оптимизация — это радикальное переосмысление того, как модель хранит и обрабатывает длинный контекст.

Вторая инновация — Manifold-Constrained Hyper-Connections (mHC), система связей между слоями, которая стабилизирует прохождение сигнала в глубокой сети. Когда у вас десятки слоёв, сигнал может затухать или наоборот взрываться градиентами, и mHC решает эту проблему без потери выразительности модели.

Эти архитектурные решения объясняют, почему DeepSeek может предложить такие цены. Если для обработки того же контекста вы тратите в десять раз меньше вычислений, вы можете в десять раз снизить стоимость, оставаясь в прибыли.

Что показывают бенчмарки

По заявлениям самой DeepSeek, V4 Pro в режиме максимального рассуждения (V4-Pro-Max) обходит GPT-5.2 и Gemini-3.0-Pro на стандартных бенчмарках reasoning'а, но слегка уступает GPT-5.4 и Gemini-3.1-Pro — отставание оценивается в три-шесть месяцев от абсолютного фронтира. На практике это значит, что для большинства задач модель вполне конкурентоспособна.

На MMLU (общая эрудиция) базовая V4 Pro набирает 90.1 против 87.8 у V3.2 и 88.7 у V4 Flash. На MMLU-Pro (более сложная версия) — 73.5 против 65.5 и 68.3 соответственно. На HumanEval (программирование) V4 Pro выдаёт 76.8 Pass@1 против 62.8 у предшественника. По математике (GSM8K) рост скромнее: 92.6 против 91.1, но здесь разница в том, что модель реже делает глупые ошибки на финальных шагах.

В агентских задачах (бенчмарк GDPval-AA) V4 Pro набирает 1554 балла — это лучший результат среди open-weights моделей, обгоняя Kimi K2.6 (1484), GLM-5.1 (1535) и MiniMax-M2.7 (1514). По индексу Artificial Analysis Intelligence Index модель занимает второе место среди reasoning-моделей с открытыми весами (52 балла против 54 у Kimi K2.6).

На длинном контексте DeepSeek V4 показывает 83.5% точности на бенчмарке MRCR с миллионом токенов — модель действительно умеет работать с таким объёмом данных, а не просто формально поддерживает длинное окно. Это важно, потому что многие модели с заявленным длинным контекстом на практике теряют качество после нескольких десятков тысяч токенов.

Есть и проблемные зоны. На бенчмарке AA-Omniscience, где модель должна отвечать «не знаю» на вопросы, на которые у неё нет данных, DeepSeek V4 показывает 94% галлюцинаций — то есть почти всегда выдумывает ответ вместо того, чтобы признать незнание. Это типичная проблема для моделей, обученных быть полезными: они предпочитают что-то сказать, а не промолчать.

Ценовая революция

Сравнение с конкурентами показывает, почему релиз называют революцией. V4 Flash стоит $0.14 за миллион входных токенов и $0.28 за выходные — это дешевле GPT-5.4 Nano ($0.20/$1.25), Gemini 3.1 Flash-Lite ($0.25/$1.50) и всех остальных малых моделей на рынке. V4 Pro с ценой $1.74/$3.48 оказывается дешевле Gemini 3.1 Pro ($2/$12), GPT-5.4 ($2.50/$15), Claude Sonnet 4.6 ($3/$15) и радикально дешевле флагманов вроде Claude Opus 4.7 ($5/$25) или GPT-5.5 ($5/$30).

Это не временная акция — такова базовая экономика модели. DeepSeek действительно предлагает 75%-ную скидку на V4 Pro до конца мая 2026 года, что опускает цену до $0.435/$0.87, но даже после истечения скидки модель останется самым дешёвым большим фронтирным решением на рынке.

Для задач, где нужно обработать много контекста, разница ещё заметнее. Сравним сценарий: обработка миллиона токенов входных данных и генерация ста тысяч токенов на выходе (типичная задача анализа большого документа или кодовой базы). V4 Pro: $1.74 + $0.348 = $2.09. Claude Opus 4.7: $5 + $2.5 = $7.5. GPT-5.5: $5 + $3 = $8. Разница в три-четыре раза. Умножьте это на тысячи запросов в день — и экономия становится вопросом выживания стартапа.

Что это значит для разработчиков

Для тех, кто строит продукты на LLM, V4 меняет расчёты. Раньше длинный контекст был роскошью: загрузить в модель целый репозиторий кода или серию документов означало сжечь бюджет за пару дней экспериментов. Теперь это базовая возможность, которую можно использовать на продакшене без страха за счета.

Это открывает классы задач, которые раньше были на грани рентабельности. Анализ юридических дел, где нужно обработать сотни страниц документов. Рефакторинг больших кодовых баз, где модель видит весь контекст проекта. Поддержка клиентов с доступом к полной истории переписки. Исследовательские агенты, которые читают десятки статей перед тем, как дать ответ. Всё это теперь стоит не тысячи, а десятки долларов на типичный запрос.

Миграция с других API проста — DeepSeek поддерживает форматы OpenAI и Anthropic, так что в коде нужно поменять только endpoint и имя модели. Открытые веса дают дополнительную страховку: если DeepSeek повысит цены или закроет API, можно запустить модель самостоятельно — хотя для V4 Pro понадобится серьёзное железо.

Что это значит для индустрии

Для OpenAI, Anthropic и Google это звонок. Год назад их преимущество было в качестве моделей — китайские конкуренты отставали на поколение. Сейчас разрыв сократился до нескольких месяцев, а по цене DeepSeek выигрывает кратно. Сундар Пичаи на Google I/O 2026 говорил, что переход 80% нагрузки с фронтирных моделей на Gemini 3.5 Flash сэкономил бы компаниям миллиард долларов в год — но V4 Flash дешевле и Gemini Flash.

Для стартапов, строящих продукты на LLM, это шанс пересмотреть архитектуру. Задачи, которые раньше решались через RAG (извлечение релевантных кусков из базы данных и передача их в модель), теперь можно решать просто: загрузить весь контекст. Это проще в реализации, точнее в работе и дешевле по итоговым затратам.

Для крупных компаний, которые тратят сотни тысяч долларов в месяц на API, V4 — это рычаг для переговоров с текущими провайдерами. Если DeepSeek предлагает сопоставимое качество за четверть цены, у OpenAI и Anthropic есть выбор: либо снизить цены, либо объяснить, за что клиенты платят премию.

Открытые веса и геополитика

Релиз под MIT-лицензией — это политическое заявление. Пока американские лаборатории всё больше закрываются (OpenAI убрала «Open» из названия де-факто, Anthropic никогда и не обещала открытости), китайские команды выпускают фронтирные модели с весами, которые можно скачать и запустить где угодно. Это меняет баланс сил: разработчики получают страховку от изменений в API, от блокировок по географии, от внезапного роста цен.

Размер модели — 865 гигабайт для Pro и 160 для Flash — означает, что самостоятельный запуск доступен только компаниям с серьёзной инфраструктурой, но это всё равно лучше, чем полная зависимость от облачного провайдера. Квантизованные версии от команды Unsloth, которые должны появиться в ближайшие недели, опустят порог входа — Flash может стать доступным для запуска на мощных рабочих станциях.

Что дальше

DeepSeek обещает продолжить работу над семейством V4, но уже сейчас понятно, что отрасль вошла в новую фазу. Год назад конкуренция шла в плоскости «кто обучит модель побольше». Сейчас — «кто сделает инференс подешевле при сопоставимом качестве». Архитектурные инновации V4 — компрессия внимания, эффективный кэш, MoE с умной маршрутизацией — это то, что будет копироваться и развиваться дальше.

Для OpenAI и Anthropic это означает давление на маржу: если они не найдут способ снизить цены без потери прибыльности, их доля рынка сожмётся до клиентов, которым нужна либо абсолютная верхушка качества, либо которые по юридическим причинам не могут использовать китайские модели. Для Google, у которой свои TPU и своя инфраструктура, это сигнал ускориться с оптимизацией Gemini.

Для разработчиков главный вывод простой: эксперименты с длинным контекстом и сложными агентскими задачами больше не требуют венчурного финансирования. Теперь это можно делать на кредитной карте.

Похожие новости

Листайте вниз

для загрузки следующей статьи