Kimi K2.6 vs Claude Opus 4.7: легитимная замена за десятую часть цены

Moonshot выложила K2.6 через четыре дня после Opus 4.7. SWE-Bench Pro, Toolathlon, BrowseComp — где открытая модель догнала закрытый фронтир.

20 апреля 2026 года Moonshot AI выложила Kimi K2.6 — через четыре дня после релиза Claude Opus 4.7. Совпадение красивое, но интереснее цифры. K2.6 проигрывает Opus на чистом коде, но выигрывает на агентских бенчмарках, стоит примерно в десять раз дешевле и доступна как open-weight под модифицированной MIT-лицензией. На r/LocalLLaMA уже висит тред «K2.6 is a legit Opus 4.7 replacement» с тысячами апвоутов. Разбираемся, насколько он прав.

Быстрое сравнение

Критерий	Claude Opus 4.7	Kimi K2.6	Победитель
Цена input	$5.00 / 1M	$0.60 / 1M	K2.6 (8×)
Цена output	$25.00 / 1M	$2.50 / 1M	K2.6 (10×)
Контекст	200K	262K	K2.6
Веса	Закрытые	Open-weight	K2.6
Мультимодальность	Image + text	Image + text + video	K2.6
Self-host	Только через AWS Bedrock / Vertex / Foundry	vLLM, SGLang, KTransformers	K2.6
SWE-Bench Verified	87.6%	80.2%	Opus 4.7
SWE-Bench Pro	64.3%	58.6%	Opus 4.7

Коротко: Opus 4.7 всё ещё ведёт по чистому кодингу, но K2.6 — единственная open-weight модель, которая правдоподобно бьёт закрытый фронтир на агентских задачах.

Производительность

Бенчмарки

Бенчмарк	Opus 4.7	K2.6	GPT-5.4	Gemini 3.1 Pro
SWE-Bench Verified	87.6%	80.2%	85.0%	80.6%
SWE-Bench Pro	64.3%	58.6%	57.7%	—
Toolathlon	47.2%	50.0%	—	—
BrowseComp	79.3%	83.2%	—	85.9%
Humanity's Last Exam (с инструментами)	—	54.0%	—	—

Картина противоречивая по делу. На SWE-Bench Verified — главном бенчмарке для оценки качества кода — Opus 4.7 уверенно ведёт с 87.6% против 80.2% у K2.6. На SWE-Bench Pro, более жёстком варианте, который штрафует за хрупкие или галлюцинированные патчи, Anthropic заявляет 64.3% — это лучший результат в категории. Но дальше начинается интересное. На Toolathlon, который меряет агентское использование инструментов в многошаговых рабочих процессах, K2.6 обгоняет Claude. То же на BrowseComp — бенчмарке для веб-агентов.

На практике

Для команд, которые уже месяц пробуют K2.6 на продакшен-задачах, картина выглядит так. Если задача — генерация кода с известными тестами, Opus 4.7 даёт меньше итераций. Если задача — оркестрация инструментов, парсинг сложных API, длинные браузерные сессии или координация подагентов — K2.6 выигрывает не только по качеству, но и по скорости (за счёт INT4-квантизации) и по стоимости.

K2.6 — это не coding-модель. Это агентная платформа с моделью внутри. Moonshot встроила в неё примитив swarm — координацию до 300 параллельных подагентов в одном запуске на 4 000 шагов. Ни Claude Code, ни Cursor, ни Devin такой архитектуры не дают: у всех один основной агент, который зовёт инструменты по одному.

Цены

Claude Opus 4.7

Тариф	Input	Output
Opus 4.7	$5.00 / 1M	$25.00 / 1M
Sonnet 4.6	$3.00 / 1M	$15.00 / 1M

Kimi K2.6

Тариф	Input	Output
Kimi API	$0.60 / 1M	$2.50 / 1M
Self-host (INT4)	стоимость GPU-часов	—

Что это значит на практике. Один прогон агента, который съедает 20 000 input-токенов и 8 000 output-токенов, на Opus 4.7 стоит около $0.30. На K2.6 — около $0.03. Команда, которая запускает 10 000 таких задач в день (реалистичная цифра для среднего энтерпрайза), за год потратит $1M на Claude и $100K на Kimi за ту же работу.

Self-host ломает экономику ещё сильнее. INT4-квантизация даёт примерно 2× ускорение инференса, day-one поддержка vLLM, SGLang и KTransformers означает, что развернуть K2.6 на собственных H100 или A100 — это не интеграционный проект, а штатная конфигурация.

Уникальные возможности

Только в Opus 4.7

Adaptive Thinking — модель сама решает, сколько «думать» над задачей. Доступ через все три облака: AWS Bedrock, Google Vertex AI, Microsoft Foundry. Лидерство по Vision Arena и Document Arena (где K2.6 пока не тестировалась). Стабильный roadmap безопасности — Anthropic шипит constitutional AI и interpretability research, что важно для регулируемых индустрий.

Только в K2.6

Open-weight под Modified MIT, нативный video-input, swarm-примитив на 300 подагентов, OpenAI-совместимый API (заменяется одной строкой base_url), Kimi Code — терминальный CLI в стиле Claude Code, но без подписки. INT4-квантизация на старте. Модель в OpenRouter, на kimi.com и в мобильном приложении.

Лицензионная мина

Modified MIT — это «почти MIT, но». Любой коммерческий деплой с более чем 100 миллионами MAU или более $20M месячной выручки обязан видимо кредитить Kimi K2.6 в UI продукта. Для стартапа, SMB или внутренних энтерпрайз-инструментов — никаких ограничений. Для Apple, Microsoft, Google или любого консьюмер-продукта с 300M+ юзеров — это или видимое «Powered by Kimi K2.6» в интерфейсе (вряд ли), или отдельный коммерческий контракт с Moonshot (как обычно и работает open-source-монетизация).

Это умный ход. Moonshot вырезала себе именно тот сегмент рынка, который ей нужен — все ниже хайперскейлерского тира — и оставила переговорную позицию для самых больших игроков.

Когда выбрать Claude Opus 4.7

Вам нужно максимальное качество чистого кодинга, и стоимость токенов — не основное ограничение. Вы в регулируемой индустрии с жёстким комплаенсом по китайскому происхождению модели. У вас уже выстроен пайплайн на Claude Code или Anthropic SDK, и переписывать его сейчас дороже, чем переплачивать. Вам критичен Vision Arena и работа с документами.

Когда выбрать Kimi K2.6

Workload агентский: тулколлы, браузинг, многошаговые координации, генерация UI с анимацией. Объёмы большие, и счёт за API уже считаете в шестизначных числах. Нужен self-host — для регулируемых индустрий, для on-prem или для контроля над данными. Вы строите что-то новое и хотите OpenAI-совместимый API без OpenAI-цен. Вам нужен video-input.

Итог

Для агентских команд, которые упёрлись в счёт за Claude API. Перенесите оркестрацию и тулколлы на K2.6, оставьте чистый кодинг на Opus 4.7. Гибридный стек — самая рациональная архитектура на ближайший квартал, пока Anthropic не ответит ценами или Moonshot не закроет последний gap по SWE-Bench Verified.

Для стартапов, которые только выбирают модель. K2.6 — дефолтный выбор, если только у вас нет конкретной причины платить в десять раз больше. Дефолт можно поменять, когда таких причин появится несколько.

Универсальный совет. Прогоните оба на своих реальных задачах. Бенчмарки — это бенчмарки, а ваш агент — это ваш агент. Разница между Opus 4.7 и K2.6 на конкретной workflow может оказаться сильно меньше или сильно больше, чем средняя по сводным таблицам.

Методология

Цены и бенчмарки взяты из публичных источников по состоянию на 22 апреля 2026 года. SWE-Bench Verified и Pro — числа от Anthropic и Moonshot, независимая верификация будет в течение месяца. Toolathlon, BrowseComp и Humanity's Last Exam — числа от Moonshot, частично подтверждены Artificial Analysis. Цены через OpenRouter и официальные API.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN