Claude Opus 4.7: минус риски, плюс литеральность — модель для регулируемых контекстов

Anthropic выпустила Opus 4.7 с подавлением киберугроз и более строгим следованием инструкциям. Модель для финансов, корпораций и brand-sensitive задач — когда важнее контроль, чем креатив.

16 апреля 2026 года Anthropic выпустила Claude Opus 4.7 — обновление флагманской модели, которое впервые явно позиционируется не как «самое мощное», а как «самое безопасное из мощных». В официальном анонсе нет сравнений с конкурентами, зато есть подробная глава про «дифференциальное снижение киберспособностей» и программу верификации для исследователей безопасности. Это не обычный релиз — это первая попытка Anthropic разделить capability frontier и deployment frontier для флагманских моделей.

Короткая формулировка: Opus 4.7 лучше пишет код, лучше понимает изображения, точнее следует инструкциям и активно блокирует запросы, связанные с кибербезопасностью. В документах, слайдах и интерфейсах выход стал более «профессионально выглядящим». Это модель для контекстов, где важнее контроль и предсказуемость, чем креативная свобода. Для финансов, юристов, корпоративных стандартов и бренд-чувствительных задач.

Что изменилось по сравнению с Opus 4.6

Производительность: software engineering и agentic tasks

На бенчмарке SWE-bench Verified — реальные баги из production-кодовых баз — Opus 4.7 показывает 64.3% против 49.0% у Opus 4.6. Это +15 процентных пунктов, один из самых больших приростов в серии последних обновлений. На SWE-bench Pro (более сложные задачи) — 48.8% против 36.2%. На мультимодальной версии SWE-bench Multimodal — 55.6% против 42.9%.

Cursor сообщает, что на их внутреннем CursorBench Opus 4.7 решает 70% задач против 58% у Opus 4.6. Sourcegraph замерил +13% прирост на 93-таск coding-бенчмарке, включая четыре задачи, которые ни Opus 4.6, ни Sonnet 4.6 решить не могли. Rakuten на своём проприетарном Rakuten-SWE-Bench сообщает трёхкратный прирост успешных резолюций по сравнению с Opus 4.6, с двухзначным улучшением в Code Quality и Test Quality.

CodeRabbit отмечает +10% recall в поиске багов в сложных pull request'ах — с той же точностью (precision), то есть модель находит больше проблем, не теряя качества. Cursor также подчёркивает, что в режиме autonomous agent Opus 4.7 лучше справляется с самостоятельной верификацией своих же выходов: модель теперь чаще сама проверяет, правильно ли отработала генерация, прежде чем вернуть результат.

Vision: 3× выше разрешение

Opus 4.7 теперь поддерживает изображения до 2,576 пикселей по длинной стороне (~3.75 мегапикселя). Это трёхкратное увеличение максимального разрешения по сравнению с предыдущими Клод-моделями. Разница проявляется сразу в нескольких сценариях: computer-use agents (визуальное понимание скриншотов UI), извлечение данных из схем, чертежей и презентаций, точная работа с визуально плотными документами.

Компания XBOW, разрабатывающая автономное пентестинг-решение, сообщает 98.5% на их visual-acuity бенчмарке против 54.5% у Opus 4.6 — это фактически шаг к работоспособности в продакшене для computer use. Solve Intelligence отмечает существенные улучшения в распознавании химических структур, технических диаграмм и сложных визуализаций.

Instruction following: более литеральное следование

Anthropic подчёркивает: Opus 4.7 воспринимает инструкции более буквально, чем предыдущие модели. Это значит, что модель меньше «угадывает намерения» и больше делает то, что явно написано. С одной стороны, это повышает предсказуемость. С другой — промпты, которые работали с Opus 4.6 через неявное выведение контекста, могут потребовать явной переформулировки.

Пример, который приводят сами: если раньше модель в ответ на запрос «сделай мне таблицу» могла выбрать наиболее релевантный формат (Markdown, CSV, JSON) по контексту, теперь она может спросить явно или выбрать формат, если он был явно назван. «Implicit intelligence» снижен в пользу explicit following — и это фича, не баг, для корпоративного использования.

Notion сообщает +14% на их multi-step workflows бенчмарке при одновременном снижении числа токенов и трёхкратном уменьшении ошибок в tool calls. Factory отмечает 10–15% прирост в task success rate для Factory Droids, с меньшим числом ошибок в инструментальных вызовах и более надёжным follow-through на валидационных шагах.

Профессиональные документы и эстетика

Модель стала заметно лучше в визуальной компоновке: создание слайдов, документов, интерфейсов. Anthropic формулирует это как «more tasteful and creative on professional tasks». Клиенты из финансового сектора и enterprise отмечают, что output теперь ближе к тому, что можно показать стейкхолдерам без доработки.

Databricks сообщает о 21% сокращении ошибок в OfficeQA Pro — бенчмарке документ-reasoning задач. Hex подчёркивает, что Opus 4.7 «правильно сообщает, когда данных нет» вместо того, чтобы генерировать правдоподобную, но ложную информацию — критическое свойство для дата-аналитики. AlphaSense на своём General Finance модуле фиксирует прирост 0.813 против 0.767.

Что такое «дифференциальное снижение киберспособностей»

Opus 4.7 — первая флагманская модель Anthropic с явным подавлением части способностей. В System Card это формулируется открыто:

«Cyber capabilities are not as advanced as those of Mythos Preview (indeed, during its training we experimented with efforts to differentially reduce these capabilities)».

Что это значит? В процессе обучения Anthropic экспериментировала с методами, которые делают модель менее полезной для потенциально опасных применений в кибербезопасности, при сохранении её способностей в coding, reasoning и vision. На CyberGym Opus 4.7 показывает 73.8% — ровно столько же, сколько Opus 4.6. То есть на академическом бенчмарке безопасности деградации нет. Но на практике модель активнее блокирует подозрительные запросы.

Anthropic запустила Cyber Verification Program — программу, через которую легитимные исследователи безопасности, пентестеры и red-teamers могут получить доступ к моделям без ограничений для исследовательских и защитных задач. Это первая попытка разделить легитимные и нелегитимные use case на уровне access control, не на уровне модели.

Какие проблемы это решает

Главное — доверие регулируемых отраслей. Финансы, здравоохранение, госсектор, корпоративные enterprise — все они упираются в вопрос compliance: можем ли мы развернуть AI, который в теории может быть использован для взлома наших же систем? Opus 4.7 позиционируется как модель, которая безопаснее для deployment в таких контекстах, потому что часть её capability поверхности заранее сужена.

Это не значит, что Opus 4.7 «хуже» Opus 4.6. Это значит, что на графике capability vs. safety он сознательно сдвинут вправо: чуть ниже абсолютные возможности в некоторых направлениях, но выше предсказуемость, alignment и соответствие корпоративным policy.

На Reddit и HackerNews это вызвало противоречивую реакцию. Часть разработчиков сообщает, что модель начала отказывать в валидных запросах — например, связанных с написанием скриптов для пентестинга, веб-скрейпинга или работы с сетевыми протоколами. Anthropic отвечает, что это известная проблема и они работают над fine-tuning фильтров. Но суть подхода остаётся: safety через снижение attack surface, а не только через alignment.

Какие компании это используют

Список клиентов из анонса показывает, где это востребовано:

Harvey (юриспруденция) — 90.9% accuracy на BigLaw Bench при высоком effort, с лучшей калибровкой рассуждений
Databricks (enterprise data) — 21% меньше ошибок в работе с источниками
AlphaSense (финансовая аналитика) — tied for the top overall score across six modules на их исследовательском бенчмарке
Notion (корпоративный workflow) — +14% в multi-step workflows при меньших token costs
Replit (developer tools) — отмечает, что Opus 4.7 теперь «лучше выбирает правильный tool call с первого раза»

Это не стартапы, которые гонятся за bleeding edge. Это компании, которым нужны предсказуемость, compliance и auditability. Opus 4.7 для них — не «самая умная модель в мире», а «самая умная модель, которую можно развернуть внутри корпоративного периметра без риска».

Чем отличается от Mythos Preview

Anthropic не выпустила Mythos Preview в production. Вместо этого она выпустила Opus 4.7 — модель, которая по части бенчмарков слабее Mythos, но которую можно безопасно деплоить.

System Card прямо указывает: Mythos Preview остаётся best-aligned model по оценкам самой Anthropic, но Opus 4.7 — первая модель, которая специально тренировалась на differential capability reduction. Это ответ на критику: «вы создаёте всё более мощные модели, но не доказываете, что можете их контролировать». Opus 4.7 — доказательство, что контроль можно встроить на уровне тренинга.

Планируется, что опыт деплоя Opus 4.7 будет использован для подготовки Mythos-class моделей к безопасному релизу. То есть Opus 4.7 — это pilot для deployment-стратегии, которую Anthropic будет применять к более мощным моделям в будущем.

Бенчмарки в деталях

Полная картина производительности (Opus 4.7 vs Opus 4.6):

SWE-bench Verified: 64.3% vs 49.0% (+15.3pp)
SWE-bench Pro: 48.8% vs 36.2% (+12.6pp)
SWE-bench Multimodal: 55.6% vs 42.9% (+12.7pp)
Terminal-Bench 2.0: 70.8% vs 58.3% (+12.5pp)
MCP-Atlas: 73.8% vs 66.6% (+7.2pp)
Finance Agent: 71.5% vs 67.6% (+3.9pp)
CyberGym: 73.8% vs 73.8% (0pp)

Интересно, что CyberGym остался на том же уровне. Это подтверждает тезис Anthropic: «дифференциальное снижение» не означает «сделать модель глупее в кибербезопасности», это означает «сделать её менее применимой к offensive use cases». Бенчмарк CyberGym измеряет defensive знания — и тут деградации нет.

Pricing и доступность

Цена та же, что у Opus 4.6:

$5 за миллион input токенов
$25 за миллион output токенов

Доступность:

Claude.ai (Pro, Max, Team, Enterprise)
Claude API (claude-opus-4-7)
Amazon Bedrock
Google Cloud Vertex AI
Microsoft Foundry
GitHub Copilot (Pro+, Business, Enterprise)

Anthropic также предлагает prompt caching (до 90% экономии), batch processing (50% экономии) и US-only inference за 1.1× цену (для compliance-требований о резиденции данных).

Чем это важно для индустрии

Opus 4.7 — это первый explicit trade-off между capability и deployability на уровне дизайна модели. До этого компании делали post-training safety fine-tuning, instruction filtering, RLHF для alignment — но base capability всегда была максимальной. Anthropic впервые говорит: «мы сознательно сделали эту модель чуть менее мощной в некоторых направлениях, чтобы её можно было безопасно использовать».

Это открывает новую стратегию для AI-компаний, работающих с enterprise: не одна модель для всех, а дифференцированные модели для разных risk profiles. Стартапу-демке — Mythos. Корпоративному клиенту с compliance — Opus 4.7. Финансовому сектору — отдельный fine-tune с ещё большим снижением attack surface.

Это также означает конец наивной веры в «one model to rule them all». Если раньше предполагалось, что чем умнее модель, тем лучше для всех, теперь становится очевидно: для значительной части индустрии нужны умеренно умные, но очень предсказуемые модели. Opus 4.7 — первая явная попытка создать именно такую.

Ограничения и критика

Over-blocking легитимных запросов

Разработчики на Reddit и HackerNews сообщают, что Opus 4.7 отказывает в легитимных задачах, если они содержат ключевые слова, связанные с безопасностью. Например:

Написание скриптов для автоматизации тестирования сети
Работа с HTTP-парсерами
Анализ логов с упоминанием уязвимостей

Anthropic признаёт, что это известная проблема и обещает более тонкую калибровку фильтров в следующих патчах. Но пока часть пользователей вынуждена перефразировать запросы или переключаться на Opus 4.6.

Изменение поведения существующих промптов

Более литеральное следование инструкциям означает, что промпты, полагавшиеся на «неявное угадывание контекста», теперь требуют переформулировки. Это создаёт миграционные издержки для команд, у которых уже есть production-системы на Opus 4.6.

Anthropic рекомендует явно указывать формат вывода, стиль, constraints — то, что раньше модель выводила сама. Для корпоративных систем это скорее плюс (больше контроля), для быстрых прототипов — минус (больше ручной работы).

Недоступность Mythos Preview

Часть исследовательского комьюнити хочет доступ к самой мощной модели, без снижения киберспособностей. Anthropic пока не предлагает публичный API для Mythos Preview. Планируется, что он будет доступен через Cyber Verification Program, но только для верифицированных исследователей.

Это создаёт напряжение между «safety through controlled access» и «open research». Критики указывают, что если Anthropic единолично контролирует доступ к frontier models, это даёт компании огромную власть над направлением исследований.

Что дальше

Anthropic планирует использовать данные реального использования Opus 4.7 для калибровки deployment-стратегии Mythos-class моделей. Это значит, что следующий большой релиз будет не просто «ещё более мощная модель», а модель с встроенной deployment-готовностью для разных уровней риска.

Возможно, мы увидим несколько версий одного и того же frontier model: один для research, один для enterprise, один для regulated industries. Это потребует новых подходов к ценообразованию, лицензированию и верификации use case — но Opus 4.7 показывает, что такой подход технически осуществим.

Для разработчиков это означает: выбор модели становится частью архитектурного решения. Не «какая модель самая умная», а «какая модель подходит для нашего risk profile». Opus 4.7 — для тех, кому нужен контроль. Mythos — для тех, кому нужна мощность. И это, вероятно, только начало такой сегментации.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN