Anthropic logo

Claude Opus 4

Мультимодальная
Anthropic

Claude Opus 4 — это самая мощная модель Anthropic и лучшая в мире модель для программирования из семейства Claude 4. Она обеспечивает стабильную производительность при выполнении сложных долгосрочных задач и агентских рабочих процессов. Opus 4 превосходно справляется с программированием, продвинутыми рассуждениями и может использовать инструменты (такие как веб-поиск) во время расширенного мышления. Она поддерживает параллельное выполнение инструментов и обладает улучшенными возможностями памяти.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
22 мая 2025 г.
Средний балл
64.6%

Временная шкала

Ключевые даты в истории модели
Анонс
22 мая 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$15.00
Выход (за 1М токенов)
$75.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
SWE-Bench Verified
Параллельные вычисления во время тестирования (несколько попыток, выбор с помощью внутренней модели оценки). Без продолжительных размышлений. На основе сноски 5 и методологии SWE-bench для высокопроизводительных вычислений.Self-reported
72.5%

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond: Расширенное размышление (до 64 тысяч токенов) с параллельными вычислениями во время тестирования (множественные попытки, выбор на основе внутренней модели оценки). Основано на сноске 5 и приложении к блогу.Self-reported
79.6%

Другие тесты

Специализированные бенчмарки
AIME 2025
Расширенное мышление (до 64 тысяч токенов) с параллельными вычислениями во время тестирования (несколько попыток, внутренний выбор модели на основе оценок). Выборка по ядру (top_p 0,95). На основе сносок 4, 5 и приложения к блогу.Self-reported
75.5%
ARC-AGI v2
точностьVerified
8.6%
MMMLU
Расширенное размышление (до 64K токенов). Среднее значение по 14 неанглийским языкам. На основе приложения к блогу и сноски 3.Self-reported
88.8%
MMMU (validation)
Расширенное мышление (до 64K токенов). На основе приложения к блогу.Self-reported
76.5%
TAU-bench Airline
Расширенное мышление с использованием инструментов (до 64K токенов, дополнение к промпту, увеличенное максимальное количество шагов). Основано на приложении к блогу и методологии TAU-bench.Self-reported
59.6%
TAU-bench Retail
Расширенное размышление с использованием инструментов (до 64K токенов, дополнение к промпту, увеличенное максимальное количество шагов). Основано на приложении к блогу и методологии TAU-bench.Self-reported
81.4%
Terminal-bench
Параллельные вычисления при тестировании (множественные попытки, выбор с помощью внутренней модели оценки). Без расширенного режима размышления. Claude Code в качестве агентного фреймворка. На основе сносок 2 и 5.Self-reported
39.2%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
22 мая 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.