Claude Opus 4.6: миллион токенов, команды агентов и PowerPoint
Anthropic выпустила Claude Opus 4.6 с контекстом 1M токенов, Agent Teams в Claude Code и поддержкой PowerPoint. Разбираем почему новая модель превосходит GPT-5.2.

Anthropic только что выпустила обновление своей флагманской модели, и это не просто инкрементальное улучшение. Claude Opus 4.6 приносит то, чего разработчики и компании ждали годами: контекстное окно в миллион токенов для Opus-класса, возможность запускать команды агентов, работающих параллельно, и интеграцию с PowerPoint. Для понимания масштаба — модель превосходит GPT-5.2 на 144 очка Elo в реальных бизнес-задачах.
Что изменилось
Opus 4.6 — это первая модель Opus-класса с контекстом в миллион токенов. Раньше такой объём был доступен только в моделях Sonnet. Теперь можно загрузить в контекст целую кодовую базу, сотни документов или многочасовую переписку — и модель не потеряет нить.
Проблема "context rot", когда качество ответов деградирует с ростом контекста, была главной болью пользователей. На бенчмарке MRCR v2 (поиск "иголок" в огромном стоге сена) Opus 4.6 набирает 76%, тогда как Sonnet 4.5 — всего 18.5%. Это качественный скачок: модель реально использует весь контекст, а не притворяется.
Второе большое изменение — Agent Teams в Claude Code. Теперь можно запустить несколько агентов, которые работают параллельно и координируются между собой. Один агент пишет фронтенд, другой — API, третий занимается миграцией базы данных. Переключаться между ними можно через Shift+Up/Down или tmux.
Третье — выход за пределы кода. Claude теперь работает в PowerPoint: читает макеты, шрифты, slide masters и генерирует презентации, сохраняя брендинг. В паре с улучшенной интеграцией в Excel это превращает Claude в полноценного офисного ассистента.
Бенчмарки: цифры не врут
Anthropic заявляет о лидерстве сразу в нескольких категориях, и независимые тесты это подтверждают.
| Бенчмарк | Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| Terminal-Bench 2.0 (агентный кодинг) | 78.4% | 71.2% | 68.9% |
| Humanity's Last Exam | 31.8% | 28.4% | 26.1% |
| GDPval-AA (бизнес-задачи) | +144 Elo vs GPT-5.2 | baseline | -52 Elo |
| BrowseComp (поиск информации) | 82.3% | 79.1% | 74.2% |
| SWE-bench Verified | 79.8% | 76.3% | 73.1% |
На GDPval-AA, который измеряет производительность на реальных задачах в финансах, юриспруденции и других профессиональных доменах, Opus 4.6 опережает GPT-5.2 примерно на 144 очка Elo. Это означает, что модель выдаёт лучший результат в 70% случаев.
Отдельно стоит отметить Terminal-Bench 2.0 — это не синтетический тест, а реальные задачи системного администрирования и разработки. Opus 4.6 здесь показывает лучший результат в индустрии.
Что говорят первые пользователи
Anthropic предоставила ранний доступ партнёрам, и отзывы говорят сами за себя.
GitHub отмечает, что модель "разблокирует долгосрочные задачи на переднем крае" и особенно хороша в агентных workflow, требующих планирования и вызова инструментов. Replit описывает "огромный скачок в агентном планировании" — модель разбивает сложные задачи на независимые подзадачи и запускает инструменты параллельно.
Cursor, один из самых популярных AI-редакторов, говорит, что Opus 4.6 — "новый фронтир для долгих задач" по их внутренним бенчмаркам. Windsurf отмечает, что модель "думает дольше, что окупается, когда нужно глубокое рассуждение".
Особенно показателен кейс Rakuten: за один день модель автономно закрыла 13 issues и распределила 12 задач между командой из 50 человек в 6 репозиториях. При этом она понимала, когда нужно эскалировать решение человеку.
Новые API-возможности
Для разработчиков Anthropic добавила несколько важных функций.
Adaptive Thinking позволяет модели самой решать, когда включать расширенное мышление. Раньше был бинарный выбор — включено или выключено. Теперь Claude подхватывает контекстные подсказки и думает глубже только когда это нужно.
Effort — четыре уровня "усилий": low, medium, high (по умолчанию) и max. На high модель использует extended thinking когда полезно, на max — всегда думает максимально глубоко. Для простых задач можно снизить до medium, чтобы сэкономить время и деньги.
Context Compaction решает проблему упирания в лимит контекста. Когда разговор приближается к настраиваемому порогу, Claude автоматически суммаризирует старый контекст и продолжает работу. Это критично для длинных агентных сессий.
Вывод увеличен до 128K токенов. Для задач с большим output — генерация документации, рефакторинг крупных файлов — больше не нужно разбивать на несколько запросов.
Контекст: 200K по умолчанию, 1M в бета
Важный нюанс, который легко упустить: миллион токенов — это не дефолтный режим, а отдельная бета-функция.
По умолчанию Opus 4.6 работает с контекстным окном 200K токенов — это стандартный режим со стандартной ценой $5/$25 за миллион input/output токенов.
Расширенный контекст в 1M токенов — это бета-опция с премиальной ценой:
- До 200K токенов: $5/$25 (стандартная цена)
- Свыше 200K токенов: $10/$37.50 (2x множитель на input, 1.5x на output)
Для большинства задач 200K токенов более чем достаточно — это примерно 500 страниц текста или средняя кодовая база. Миллион нужен для действительно экстремальных случаев: полный анализ крупного open-source проекта, обработка сотен документов за раз, многочасовые агентные сессии.
При включении бета-режима 1M контекста на уровне API нужно явно его активировать. Это не происходит автоматически даже если промпт превышает 200K токенов.
Цены и доступность
Базовые цены остаются прежними: $5 за миллион входных токенов и $25 за миллион выходных при контексте до 200K токенов. Для Opus-класса — стандартная ставка.
Модель доступна на claude.ai, через API (model ID: claude-opus-4-6) и на всех основных облачных платформах включая Azure и AWS Bedrock. Для workloads, которые должны выполняться только в США, есть опция US-only inference с наценкой 1.1x.
Безопасность
Anthropic подчёркивает, что рост интеллекта не пришёл за счёт безопасности. На их автоматизированном аудите поведения Opus 4.6 показывает низкий уровень misaligned behaviors — обмана, подхалимства, потакания заблуждениям пользователя.
При этом модель демонстрирует самый низкий уровень over-refusals среди всех недавних Claude. То есть она реже отказывается отвечать на безобидные запросы.
Учитывая усиленные возможности в кибербезопасности, Anthropic разработала шесть новых probes для детекции потенциального злоупотребления. Компания также использует модель для поиска и патча уязвимостей в open-source софте — подробнее в их блоге по кибербезопасности.
Что это значит для индустрии
Выход Opus 4.6 случился в интересный момент — буквально накануне Anthropic опубликовала манифест "Claude is a space to think", объявив, что никогда не будет показывать рекламу в Claude. Это прямой укол в сторону OpenAI, которая начала тестировать рекламу в ChatGPT.
Разрыв между моделями сокращается, но не исчезает. Opus 4.6 опережает GPT-5.2 в агентных задачах и работе с большим контекстом. GPT-5.2 по-прежнему силён в других областях. Gemini 3 Pro догоняет, но пока уступает обоим.
Для разработчиков главный вывод — Agent Teams открывает новые паттерны работы. Вместо одного агента, который делает всё последовательно, можно запускать команду специализированных агентов. Это ближе к тому, как работают реальные команды разработчиков.
Для бизнеса интересна связка Excel + PowerPoint. Подготовить данные, проанализировать, сгенерировать презентацию — всё в одном workflow с участием Claude. Это то, что раньше требовало часов ручной работы.
Выводы
Opus 4.6 — существенное обновление, а не просто версия 4.5.1. Миллион токенов контекста для Opus-класса, параллельные агенты, интеграция с офисными инструментами — каждая из этих фич по отдельности была бы значительной. Вместе они меняют то, какие задачи можно делегировать AI.
Цена остаётся высокой, и для многих задач Sonnet по-прежнему будет оптимальным выбором. Но для сложных, долгих, агентных задач — кодовых ревью, рефакторинга, исследований — Opus 4.6 сейчас лучшее, что есть на рынке.
Доступно сейчас на claude.ai и через API.


