13 месяцев после DeepSeek-момента: как далеко зашёл open-source AI
В январе 2025 DeepSeek R1 перевернул индустрию. 13 месяцев спустя open-source модели доминируют на OpenRouter, а запуск 70B-модели на домашнем железе стал рутиной.

Тринадцать месяцев назад, в январе 2025 года, маленькая китайская компания из Ханчжоу выложила в открытый доступ модель, которая торговалась на уровне GPT-4. NVIDIA потеряла $600 млрд капитализации за день. Сэм Альтман написал: «DeepSeek's R1 is impressive.» Мир AI уже никогда не стал прежним.
Сейчас, в марте 2026-го, сообщество r/LocalLLaMA задаёт вопрос: как далеко мы зашли? Ответ — дальше, чем кто-либо мог предположить.
Где мы были
В январе 2025 года запустить что-то сравнимое с GPT-4 локально было либо невозможно, либо требовало серверной стойки. DeepSeek R1 весил 671B параметров и для полноценной работы требовал несколько GPU с суммарным VRAM более 200 ГБ. Квантизированные версии были, но качество падало заметно. Основная масса локальных пользователей сидела на 7B-13B моделях — умных, но далёких от frontier-уровня.
Open-source в целом отставал от закрытых моделей на 6-12 месяцев. GPT-4 вышел в марте 2023, первая сравнимая открытая модель (Llama 3.1 405B) появилась только в июле 2024. И даже она требовала огромных ресурсов.
Что изменилось
Перечислять всё, что произошло за 13 месяцев, можно долго. Вот ключевые сдвиги.
Архитектура Mixture of Experts стала стандартом. DeepSeek показал, что MoE позволяет строить огромные модели, где при инференсе активна только малая часть параметров. Qwen 3.5 — 397B параметров, но активных 17B. Step-3.5-Flash — 196B с активными 3B. Результат: frontier-модели запускаются на железе, которое год назад тянуло максимум mid-tier.
Китайские лаборатории захватили open-source. По данным OpenRouter, пять самых используемых моделей в начале 2026 года — все из Китая: DeepSeek V4, Qwen 3.5, MiniMax M2.5, Kimi K2.5 и GLM-5. Это не случайность — китайские компании, ограниченные в доступе к лучшим чипам, сделали ставку на эффективность архитектуры. И выиграли.
DDR5 подешевела настолько, что серверная память стала доступным путём к большим моделям. Комбинация AMD EPYC + 768 ГБ DDR5 RDIMM позволяет запускать DeepSeek V4 полностью в RAM через llama.cpp, с приемлемой скоростью.
Квантизация сделала скачок. INT4-версии моделей в формате GGUF потеряли минимум качества. Step-3.5-Flash-INT4 показывает 74.4% на SWE-Bench — это уровень, о котором год назад мечтали закрытые модели.
Разрыв сокращается, но не исчезает
Было бы наивно говорить, что open-source догнал проприетарные модели. Claude Opus 4.6 с его Agent Teams, GPT-5.3-Codex с self-debugging — эти системы делают вещи, которые локальным моделям пока недоступны. Автономные агенты, работающие часами, требуют не только умной модели, но и огромной инфраструктуры вокруг неё.
Разрыв лучше всего виден на сложных задачах. На SWE-Bench Verified: Opus 4.6 набирает 79.8%, GPT-5.3-Codex — 80.2%, а лучшая открытая модель MiniMax M2.5 — те же 80.2%. Паритет? Почти. Но на более тяжёлых бенчмарках (Terminal-Bench 2.0, OSWorld) разрыв остаётся заметным — закрытые модели лучше справляются с длинными, многошаговыми задачами.
Зато по соотношению цена/качество open-source уже выигрывает с разгромным счётом. Час работы MiniMax M2.5 через OpenHands стоит около $1. Час работы Claude Opus 4.6 — $15-20. Для задач, где достаточно «хорошо», а не «идеально», выбор очевиден.
Культурный сдвиг
Может быть, самое важное изменение — не техническое. Сообщество LocalLLaMA выросло из хобби для гиков в серьёзное движение. Пост на Reddit, обсуждающий прогресс за 13 месяцев, отражает настроение: люди, которые год назад радовались, что 7B-модель может сносно ответить на вопрос, теперь запускают 80B-модели на Mac Studio и решают реальные задачи.
MIT Technology Review назвал происходящее «поворотным моментом для китайского AI»: открытые модели распространяются от Hugging Face до Кремниевой долины, и это уже не эксперимент — это инфраструктура.
Что дальше
Hugging Face подвёл итоги первого года после DeepSeek-момента. Главный вывод: прогресс в open-source ускоряется. Каждый месяц появляются модели, которые год назад казались бы невозможными. DeepSeek V4 с триллионом параметров и памятью Engram, Qwen 3.5 с 1M-контекстом, MiniMax M2.5 с SWE-Bench на уровне Opus — всё это случилось за один год.
Вопрос уже не «догонит ли open-source закрытые модели?», а «в каких задачах проприетарные модели сохранят преимущество?». Ответ всё больше сужается до самых сложных агентных сценариев, где важна не только модель, но и вся экосистема вокруг неё. Для всего остального — достаточно скачать модель и запустить локально.
