Opus 4.6 стоит в 1.7x дороже Opus 4.5 при тех же тарифах — как это возможно
Сообщество обсуждает скрытое удорожание Claude Opus 4.6: цена за токен не изменилась, но модель думает дольше и генерирует больше output-токенов.

Пост на r/singularity с 259 голосами и 40 комментариями задал неудобный вопрос: если Anthropic заявляет «цена не изменилась — $5/$25 за миллион токенов», почему реальные счета за Opus 4.6 оказываются в 1.7 раза выше, чем за Opus 4.5? Ответ кроется не в тарифах, а в поведении модели.
Цена на бумаге vs цена на практике
Формально Anthropic не обманывает. Потокенные тарифы идентичны:
| Параметр | Opus 4.5 | Opus 4.6 |
|---|---|---|
| Input (до 200K) | $5/1M | $5/1M |
| Output (до 200K) | $25/1M | $25/1M |
| Контекст | 200K | 200K (1M в бета) |
| Макс. output | 64K токенов | 128K токенов |
Но дьявол в деталях. Opus 4.6 использует Adaptive Thinking — модель сама решает, когда включать глубокое рассуждение. По данным Artificial Analysis, для прохождения одного и того же Intelligence Index:
- Opus 4.6 сгенерировал 58 миллионов output-токенов → стоимость $2 486
- Opus 4.5 сгенерировал 29 миллионов output-токенов → стоимость ~$1 450
Это ровно 1.7x разница в реальной стоимости при идентичных тарифах. Модель думает дольше и тщательнее пересматривает свои рассуждения — это даёт лучшие результаты, но удваивает количество output-токенов. А output-токены стоят $25 за миллион — самая дорогая часть счёта.
Аргументы «за»: качество стоит денег
Opus 4.6 — лидер Intelligence Index от Artificial Analysis, обойдя GPT-5.2. Бенчмарки впечатляют:
| Бенчмарк | Opus 4.5 | Opus 4.6 | Прирост |
|---|---|---|---|
| ARC AGI 2 | 37.6% | 68.8% | +31.2 п.п. |
| BrowseComp | 67.8% | 84.0% | +16.2 п.п. |
| Humanity's Last Exam | 43.4% | 53.1% | +9.7 п.п. |
| GPQA Diamond | 87.0% | 91.3% | +4.3 п.п. |
| GDPval-AA | baseline | +190 Elo | Лидер |
При этом Opus 4.6 эффективнее конкурентов в пересчёте на токен: GPT-5.2 в режиме xhigh сгенерировал 130 миллионов output-токенов для того же теста — более чем вдвое больше. Итоговая стоимость GPT-5.2 составила $2 304, что сопоставимо с Opus 4.6 ($2 486), несмотря на более низкие потокенные тарифы GPT.
Anthropic также предоставила инструмент контроля: параметр effort с четырьмя уровнями (low, medium, high, max). На уровне medium модель не включает глубокое рассуждение для простых задач, что значительно снижает расход токенов.
Аргументы «против»: скрытая инфляция
Критики указывают на несколько проблем. Фраза «цена не изменилась» в анонсе Anthropic технически верна, но вводит в заблуждение. Пользователи, обновившие модель с 4.5 на 4.6 без изменения кода, обнаруживают значительно более высокие счета.
Opus 4.6 иногда «передумывает» простые задачи. Сама Anthropic признаёт это в документации: «Если модель избыточно анализирует задачу, рекомендуем снизить effort с high (по умолчанию) до medium». То есть дефолтные настройки оптимизированы под качество, а не под стоимость.
На фоне конкурентов тарифы Opus выглядят особенно высоко:
| Модель | Input/1M | Output/1M |
|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 |
| GPT-5.2 | $1.75 | $14.00 |
| Gemini 3 Pro | $2.00 | $12.00 |
Input Opus 4.6 стоит в 2.86x дороже GPT-5.2, output — в 1.79x. При этом на SWE-bench Verified регрессия: 80.9% у Opus 4.5 против 80.8% у Opus 4.6. Некоторые пользователи также отмечают снижение качества креативного письма.
Что с этим делать
Anthropic предлагает несколько рычагов снижения расходов. Промпт-кеширование экономит до 90% на input-токенах при повторяющихся запросах. Batch API снижает стоимость на 50% ($2.50/$12.50). Параметр effort позволяет осознанно выбирать между глубиной и скоростью.
Для разработчиков главный вывод: не обновляйте модель с 4.5 на 4.6 автоматически без мониторинга расходов. Протестируйте на реальных задачах, сравните количество output-токенов и настройте effort под конкретный кейс.
Для тех, кому важна стоимость больше качества на сложных задачах, Sonnet 4.5 за $3/$15 остаётся оптимальным выбором — он покрывает 80% типичных задач при вдвое меньшей цене. Opus 4.6 имеет смысл для агентных сценариев, длинного контекста и задач, где дополнительное рассуждение реально влияет на результат.
Ситуация с Opus 4.6 — хороший пример общей тенденции: модели становятся умнее, но и «прожорливее». В мире thinking-моделей стоимость определяется не тарифом, а тем, сколько модель решает думать. Контролировать это — теперь часть работы разработчика.


