Claude Opus 4.6: миллион токенов, команды агентов и PowerPoint

Anthropic выпустила Claude Opus 4.6 с контекстом 1M токенов, Agent Teams в Claude Code и поддержкой PowerPoint. Разбираем почему новая модель превосходит GPT-5.2.

Anthropic только что выпустила обновление своей флагманской модели, и это не просто инкрементальное улучшение. Claude Opus 4.6 приносит то, чего разработчики и компании ждали годами: контекстное окно в миллион токенов для Opus-класса, возможность запускать команды агентов, работающих параллельно, и интеграцию с PowerPoint. Для понимания масштаба — модель превосходит GPT-5.2 на 144 очка Elo в реальных бизнес-задачах.

Что изменилось

Opus 4.6 — это первая модель Opus-класса с контекстом в миллион токенов. Раньше такой объём был доступен только в моделях Sonnet. Теперь можно загрузить в контекст целую кодовую базу, сотни документов или многочасовую переписку — и модель не потеряет нить.

Проблема "context rot", когда качество ответов деградирует с ростом контекста, была главной болью пользователей. На бенчмарке MRCR v2 (поиск "иголок" в огромном стоге сена) Opus 4.6 набирает 76%, тогда как Sonnet 4.5 — всего 18.5%. Это качественный скачок: модель реально использует весь контекст, а не притворяется.

Второе большое изменение — Agent Teams в Claude Code. Теперь можно запустить несколько агентов, которые работают параллельно и координируются между собой. Один агент пишет фронтенд, другой — API, третий занимается миграцией базы данных. Переключаться между ними можно через Shift+Up/Down или tmux.

Третье — выход за пределы кода. Claude теперь работает в PowerPoint: читает макеты, шрифты, slide masters и генерирует презентации, сохраняя брендинг. В паре с улучшенной интеграцией в Excel это превращает Claude в полноценного офисного ассистента.

Бенчмарки: цифры не врут

Anthropic заявляет о лидерстве сразу в нескольких категориях, и независимые тесты это подтверждают.

Бенчмарк	Opus 4.6	GPT-5.2	Gemini 3 Pro
Terminal-Bench 2.0 (агентный кодинг)	78.4%	71.2%	68.9%
Humanity's Last Exam	31.8%	28.4%	26.1%
GDPval-AA (бизнес-задачи)	+144 Elo vs GPT-5.2	baseline	-52 Elo
BrowseComp (поиск информации)	82.3%	79.1%	74.2%
SWE-bench Verified	79.8%	76.3%	73.1%

На GDPval-AA, который измеряет производительность на реальных задачах в финансах, юриспруденции и других профессиональных доменах, Opus 4.6 опережает GPT-5.2 примерно на 144 очка Elo. Это означает, что модель выдаёт лучший результат в 70% случаев.

Отдельно стоит отметить Terminal-Bench 2.0 — это не синтетический тест, а реальные задачи системного администрирования и разработки. Opus 4.6 здесь показывает лучший результат в индустрии.

Что говорят первые пользователи

Anthropic предоставила ранний доступ партнёрам, и отзывы говорят сами за себя.

GitHub отмечает, что модель "разблокирует долгосрочные задачи на переднем крае" и особенно хороша в агентных workflow, требующих планирования и вызова инструментов. Replit описывает "огромный скачок в агентном планировании" — модель разбивает сложные задачи на независимые подзадачи и запускает инструменты параллельно.

Cursor, один из самых популярных AI-редакторов, говорит, что Opus 4.6 — "новый фронтир для долгих задач" по их внутренним бенчмаркам. Windsurf отмечает, что модель "думает дольше, что окупается, когда нужно глубокое рассуждение".

Особенно показателен кейс Rakuten: за один день модель автономно закрыла 13 issues и распределила 12 задач между командой из 50 человек в 6 репозиториях. При этом она понимала, когда нужно эскалировать решение человеку.

Новые API-возможности

Для разработчиков Anthropic добавила несколько важных функций.

Adaptive Thinking позволяет модели самой решать, когда включать расширенное мышление. Раньше был бинарный выбор — включено или выключено. Теперь Claude подхватывает контекстные подсказки и думает глубже только когда это нужно.

Effort — четыре уровня "усилий": low, medium, high (по умолчанию) и max. На high модель использует extended thinking когда полезно, на max — всегда думает максимально глубоко. Для простых задач можно снизить до medium, чтобы сэкономить время и деньги.

Context Compaction решает проблему упирания в лимит контекста. Когда разговор приближается к настраиваемому порогу, Claude автоматически суммаризирует старый контекст и продолжает работу. Это критично для длинных агентных сессий.

Вывод увеличен до 128K токенов. Для задач с большим output — генерация документации, рефакторинг крупных файлов — больше не нужно разбивать на несколько запросов.

Контекст: 200K по умолчанию, 1M в бета

Важный нюанс, который легко упустить: миллион токенов — это не дефолтный режим, а отдельная бета-функция.

По умолчанию Opus 4.6 работает с контекстным окном 200K токенов — это стандартный режим со стандартной ценой $5/$25 за миллион input/output токенов.

Расширенный контекст в 1M токенов — это бета-опция с премиальной ценой:

До 200K токенов: $5/$25 (стандартная цена)
Свыше 200K токенов: $10/$37.50 (2x множитель на input, 1.5x на output)

Для большинства задач 200K токенов более чем достаточно — это примерно 500 страниц текста или средняя кодовая база. Миллион нужен для действительно экстремальных случаев: полный анализ крупного open-source проекта, обработка сотен документов за раз, многочасовые агентные сессии.

При включении бета-режима 1M контекста на уровне API нужно явно его активировать. Это не происходит автоматически даже если промпт превышает 200K токенов.

Цены и доступность

Базовые цены остаются прежними: $5 за миллион входных токенов и $25 за миллион выходных при контексте до 200K токенов. Для Opus-класса — стандартная ставка.

Модель доступна на claude.ai, через API (model ID: claude-opus-4-6) и на всех основных облачных платформах включая Azure и AWS Bedrock. Для workloads, которые должны выполняться только в США, есть опция US-only inference с наценкой 1.1x.

Безопасность

Anthropic подчёркивает, что рост интеллекта не пришёл за счёт безопасности. На их автоматизированном аудите поведения Opus 4.6 показывает низкий уровень misaligned behaviors — обмана, подхалимства, потакания заблуждениям пользователя.

При этом модель демонстрирует самый низкий уровень over-refusals среди всех недавних Claude. То есть она реже отказывается отвечать на безобидные запросы.

Учитывая усиленные возможности в кибербезопасности, Anthropic разработала шесть новых probes для детекции потенциального злоупотребления. Компания также использует модель для поиска и патча уязвимостей в open-source софте — подробнее в их блоге по кибербезопасности.

Что это значит для индустрии

Выход Opus 4.6 случился в интересный момент — буквально накануне Anthropic опубликовала манифест "Claude is a space to think", объявив, что никогда не будет показывать рекламу в Claude. Это прямой укол в сторону OpenAI, которая начала тестировать рекламу в ChatGPT.

Разрыв между моделями сокращается, но не исчезает. Opus 4.6 опережает GPT-5.2 в агентных задачах и работе с большим контекстом. GPT-5.2 по-прежнему силён в других областях. Gemini 3 Pro догоняет, но пока уступает обоим.

Для разработчиков главный вывод — Agent Teams открывает новые паттерны работы. Вместо одного агента, который делает всё последовательно, можно запускать команду специализированных агентов. Это ближе к тому, как работают реальные команды разработчиков.

Для бизнеса интересна связка Excel + PowerPoint. Подготовить данные, проанализировать, сгенерировать презентацию — всё в одном workflow с участием Claude. Это то, что раньше требовало часов ручной работы.

Выводы

Opus 4.6 — существенное обновление, а не просто версия 4.5.1. Миллион токенов контекста для Opus-класса, параллельные агенты, интеграция с офисными инструментами — каждая из этих фич по отдельности была бы значительной. Вместе они меняют то, какие задачи можно делегировать AI.

Цена остаётся высокой, и для многих задач Sonnet по-прежнему будет оптимальным выбором. Но для сложных, долгих, агентных задач — кодовых ревью, рефакторинга, исследований — Opus 4.6 сейчас лучшее, что есть на рынке.

Доступно сейчас на claude.ai и через API.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN