Opus 4.6 стоит в 1.7x дороже Opus 4.5 при тех же тарифах — как это возможно

Сообщество обсуждает скрытое удорожание Claude Opus 4.6: цена за токен не изменилась, но модель думает дольше и генерирует больше output-токенов.

Пост на r/singularity с 259 голосами и 40 комментариями задал неудобный вопрос: если Anthropic заявляет «цена не изменилась — $5/$25 за миллион токенов», почему реальные счета за Opus 4.6 оказываются в 1.7 раза выше, чем за Opus 4.5? Ответ кроется не в тарифах, а в поведении модели.

Цена на бумаге vs цена на практике

Формально Anthropic не обманывает. Потокенные тарифы идентичны:

Параметр	Opus 4.5	Opus 4.6
Input (до 200K)	$5/1M	$5/1M
Output (до 200K)	$25/1M	$25/1M
Контекст	200K	200K (1M в бета)
Макс. output	64K токенов	128K токенов

Но дьявол в деталях. Opus 4.6 использует Adaptive Thinking — модель сама решает, когда включать глубокое рассуждение. По данным Artificial Analysis, для прохождения одного и того же Intelligence Index:

Opus 4.6 сгенерировал 58 миллионов output-токенов → стоимость $2 486
Opus 4.5 сгенерировал 29 миллионов output-токенов → стоимость ~$1 450

Это ровно 1.7x разница в реальной стоимости при идентичных тарифах. Модель думает дольше и тщательнее пересматривает свои рассуждения — это даёт лучшие результаты, но удваивает количество output-токенов. А output-токены стоят $25 за миллион — самая дорогая часть счёта.

Аргументы «за»: качество стоит денег

Opus 4.6 — лидер Intelligence Index от Artificial Analysis, обойдя GPT-5.2. Бенчмарки впечатляют:

Бенчмарк	Opus 4.5	Opus 4.6	Прирост
ARC AGI 2	37.6%	68.8%	+31.2 п.п.
BrowseComp	67.8%	84.0%	+16.2 п.п.
Humanity's Last Exam	43.4%	53.1%	+9.7 п.п.
GPQA Diamond	87.0%	91.3%	+4.3 п.п.
GDPval-AA	baseline	+190 Elo	Лидер

При этом Opus 4.6 эффективнее конкурентов в пересчёте на токен: GPT-5.2 в режиме xhigh сгенерировал 130 миллионов output-токенов для того же теста — более чем вдвое больше. Итоговая стоимость GPT-5.2 составила $2 304, что сопоставимо с Opus 4.6 ($2 486), несмотря на более низкие потокенные тарифы GPT.

Anthropic также предоставила инструмент контроля: параметр effort с четырьмя уровнями (low, medium, high, max). На уровне medium модель не включает глубокое рассуждение для простых задач, что значительно снижает расход токенов.

Аргументы «против»: скрытая инфляция

Критики указывают на несколько проблем. Фраза «цена не изменилась» в анонсе Anthropic технически верна, но вводит в заблуждение. Пользователи, обновившие модель с 4.5 на 4.6 без изменения кода, обнаруживают значительно более высокие счета.

Opus 4.6 иногда «передумывает» простые задачи. Сама Anthropic признаёт это в документации: «Если модель избыточно анализирует задачу, рекомендуем снизить effort с high (по умолчанию) до medium». То есть дефолтные настройки оптимизированы под качество, а не под стоимость.

На фоне конкурентов тарифы Opus выглядят особенно высоко:

Модель	Input/1M	Output/1M
Claude Opus 4.6	$5.00	$25.00
GPT-5.2	$1.75	$14.00
Gemini 3 Pro	$2.00	$12.00

Input Opus 4.6 стоит в 2.86x дороже GPT-5.2, output — в 1.79x. При этом на SWE-bench Verified регрессия: 80.9% у Opus 4.5 против 80.8% у Opus 4.6. Некоторые пользователи также отмечают снижение качества креативного письма.

Что с этим делать

Anthropic предлагает несколько рычагов снижения расходов. Промпт-кеширование экономит до 90% на input-токенах при повторяющихся запросах. Batch API снижает стоимость на 50% ($2.50/$12.50). Параметр effort позволяет осознанно выбирать между глубиной и скоростью.

Для разработчиков главный вывод: не обновляйте модель с 4.5 на 4.6 автоматически без мониторинга расходов. Протестируйте на реальных задачах, сравните количество output-токенов и настройте effort под конкретный кейс.

Для тех, кому важна стоимость больше качества на сложных задачах, Sonnet 4.5 за $3/$15 остаётся оптимальным выбором — он покрывает 80% типичных задач при вдвое меньшей цене. Opus 4.6 имеет смысл для агентных сценариев, длинного контекста и задач, где дополнительное рассуждение реально влияет на результат.

Ситуация с Opus 4.6 — хороший пример общей тенденции: модели становятся умнее, но и «прожорливее». В мире thinking-моделей стоимость определяется не тарифом, а тем, сколько модель решает думать. Контролировать это — теперь часть работы разработчика.