Kimi K2.6 vs Claude Opus 4.7: легитимная замена за десятую часть цены
Moonshot выложила K2.6 через четыре дня после Opus 4.7. SWE-Bench Pro, Toolathlon, BrowseComp — где открытая модель догнала закрытый фронтир.

20 апреля 2026 года Moonshot AI выложила Kimi K2.6 — через четыре дня после релиза Claude Opus 4.7. Совпадение красивое, но интереснее цифры. K2.6 проигрывает Opus на чистом коде, но выигрывает на агентских бенчмарках, стоит примерно в десять раз дешевле и доступна как open-weight под модифицированной MIT-лицензией. На r/LocalLLaMA уже висит тред «K2.6 is a legit Opus 4.7 replacement» с тысячами апвоутов. Разбираемся, насколько он прав.
Быстрое сравнение
| Критерий | Claude Opus 4.7 | Kimi K2.6 | Победитель |
|---|---|---|---|
| Цена input | $5.00 / 1M | $0.60 / 1M | K2.6 (8×) |
| Цена output | $25.00 / 1M | $2.50 / 1M | K2.6 (10×) |
| Контекст | 200K | 262K | K2.6 |
| Веса | Закрытые | Open-weight | K2.6 |
| Мультимодальность | Image + text | Image + text + video | K2.6 |
| Self-host | Только через AWS Bedrock / Vertex / Foundry | vLLM, SGLang, KTransformers | K2.6 |
| SWE-Bench Verified | 87.6% | 80.2% | Opus 4.7 |
| SWE-Bench Pro | 64.3% | 58.6% | Opus 4.7 |
Коротко: Opus 4.7 всё ещё ведёт по чистому кодингу, но K2.6 — единственная open-weight модель, которая правдоподобно бьёт закрытый фронтир на агентских задачах.
Производительность
Бенчмарки
| Бенчмарк | Opus 4.7 | K2.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Verified | 87.6% | 80.2% | 85.0% | 80.6% |
| SWE-Bench Pro | 64.3% | 58.6% | 57.7% | — |
| Toolathlon | 47.2% | 50.0% | — | — |
| BrowseComp | 79.3% | 83.2% | — | 85.9% |
| Humanity's Last Exam (с инструментами) | — | 54.0% | — | — |
Картина противоречивая по делу. На SWE-Bench Verified — главном бенчмарке для оценки качества кода — Opus 4.7 уверенно ведёт с 87.6% против 80.2% у K2.6. На SWE-Bench Pro, более жёстком варианте, который штрафует за хрупкие или галлюцинированные патчи, Anthropic заявляет 64.3% — это лучший результат в категории. Но дальше начинается интересное. На Toolathlon, который меряет агентское использование инструментов в многошаговых рабочих процессах, K2.6 обгоняет Claude. То же на BrowseComp — бенчмарке для веб-агентов.
На практике
Для команд, которые уже месяц пробуют K2.6 на продакшен-задачах, картина выглядит так. Если задача — генерация кода с известными тестами, Opus 4.7 даёт меньше итераций. Если задача — оркестрация инструментов, парсинг сложных API, длинные браузерные сессии или координация подагентов — K2.6 выигрывает не только по качеству, но и по скорости (за счёт INT4-квантизации) и по стоимости.
K2.6 — это не coding-модель. Это агентная платформа с моделью внутри. Moonshot встроила в неё примитив swarm — координацию до 300 параллельных подагентов в одном запуске на 4 000 шагов. Ни Claude Code, ни Cursor, ни Devin такой архитектуры не дают: у всех один основной агент, который зовёт инструменты по одному.
Цены
Claude Opus 4.7
| Тариф | Input | Output |
|---|---|---|
| Opus 4.7 | $5.00 / 1M | $25.00 / 1M |
| Sonnet 4.6 | $3.00 / 1M | $15.00 / 1M |
Kimi K2.6
| Тариф | Input | Output |
|---|---|---|
| Kimi API | $0.60 / 1M | $2.50 / 1M |
| Self-host (INT4) | стоимость GPU-часов | — |
Что это значит на практике. Один прогон агента, который съедает 20 000 input-токенов и 8 000 output-токенов, на Opus 4.7 стоит около $0.30. На K2.6 — около $0.03. Команда, которая запускает 10 000 таких задач в день (реалистичная цифра для среднего энтерпрайза), за год потратит $1M на Claude и $100K на Kimi за ту же работу.
Self-host ломает экономику ещё сильнее. INT4-квантизация даёт примерно 2× ускорение инференса, day-one поддержка vLLM, SGLang и KTransformers означает, что развернуть K2.6 на собственных H100 или A100 — это не интеграционный проект, а штатная конфигурация.
Уникальные возможности
Только в Opus 4.7
Adaptive Thinking — модель сама решает, сколько «думать» над задачей. Доступ через все три облака: AWS Bedrock, Google Vertex AI, Microsoft Foundry. Лидерство по Vision Arena и Document Arena (где K2.6 пока не тестировалась). Стабильный roadmap безопасности — Anthropic шипит constitutional AI и interpretability research, что важно для регулируемых индустрий.
Только в K2.6
Open-weight под Modified MIT, нативный video-input, swarm-примитив на 300 подагентов, OpenAI-совместимый API (заменяется одной строкой base_url), Kimi Code — терминальный CLI в стиле Claude Code, но без подписки. INT4-квантизация на старте. Модель в OpenRouter, на kimi.com и в мобильном приложении.
Лицензионная мина
Modified MIT — это «почти MIT, но». Любой коммерческий деплой с более чем 100 миллионами MAU или более $20M месячной выручки обязан видимо кредитить Kimi K2.6 в UI продукта. Для стартапа, SMB или внутренних энтерпрайз-инструментов — никаких ограничений. Для Apple, Microsoft, Google или любого консьюмер-продукта с 300M+ юзеров — это или видимое «Powered by Kimi K2.6» в интерфейсе (вряд ли), или отдельный коммерческий контракт с Moonshot (как обычно и работает open-source-монетизация).
Это умный ход. Moonshot вырезала себе именно тот сегмент рынка, который ей нужен — все ниже хайперскейлерского тира — и оставила переговорную позицию для самых больших игроков.
Когда выбрать Claude Opus 4.7
Вам нужно максимальное качество чистого кодинга, и стоимость токенов — не основное ограничение. Вы в регулируемой индустрии с жёстким комплаенсом по китайскому происхождению модели. У вас уже выстроен пайплайн на Claude Code или Anthropic SDK, и переписывать его сейчас дороже, чем переплачивать. Вам критичен Vision Arena и работа с документами.
Когда выбрать Kimi K2.6
Workload агентский: тулколлы, браузинг, многошаговые координации, генерация UI с анимацией. Объёмы большие, и счёт за API уже считаете в шестизначных числах. Нужен self-host — для регулируемых индустрий, для on-prem или для контроля над данными. Вы строите что-то новое и хотите OpenAI-совместимый API без OpenAI-цен. Вам нужен video-input.
Итог
Для агентских команд, которые упёрлись в счёт за Claude API. Перенесите оркестрацию и тулколлы на K2.6, оставьте чистый кодинг на Opus 4.7. Гибридный стек — самая рациональная архитектура на ближайший квартал, пока Anthropic не ответит ценами или Moonshot не закроет последний gap по SWE-Bench Verified.
Для стартапов, которые только выбирают модель. K2.6 — дефолтный выбор, если только у вас нет конкретной причины платить в десять раз больше. Дефолт можно поменять, когда таких причин появится несколько.
Универсальный совет. Прогоните оба на своих реальных задачах. Бенчмарки — это бенчмарки, а ваш агент — это ваш агент. Разница между Opus 4.7 и K2.6 на конкретной workflow может оказаться сильно меньше или сильно больше, чем средняя по сводным таблицам.
Методология
Цены и бенчмарки взяты из публичных источников по состоянию на 22 апреля 2026 года. SWE-Bench Verified и Pro — числа от Anthropic и Moonshot, независимая верификация будет в течение месяца. Toolathlon, BrowseComp и Humanity's Last Exam — числа от Moonshot, частично подтверждены Artificial Analysis. Цены через OpenRouter и официальные API.

