Claude Opus 4

Name: Claude Opus 4
Author: Anthropic

Мультимодальная

Anthropic

Claude Opus 4 — это самая мощная модель Anthropic и лучшая в мире модель для программирования из семейства Claude 4. Она обеспечивает стабильную производительность при выполнении сложных долгосрочных задач и агентских рабочих процессов. Opus 4 превосходно справляется с программированием, продвинутыми рассуждениями и может использовать инструменты (такие как веб-поиск) во время расширенного мышления. Она поддерживает параллельное выполнение инструментов и обладает улучшенными возможностями памяти.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

22 мая 2025 г.

Средний балл

64.6%

Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

22 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

23 июня 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$15.00

Выход (за 1М токенов)

$75.00

Макс. входящих токенов

200.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Параллельные вычисления во время тестирования (несколько попыток, выбор с помощью внутренней модели оценки). Без продолжительных размышлений. На основе сноски 5 и методологии SWE-bench для высокопроизводительных вычислений. • Self-reported

72.5%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond: Расширенное размышление (до 64 тысяч токенов) с параллельными вычислениями во время тестирования (множественные попытки, выбор на основе внутренней модели оценки). Основано на сноске 5 и приложении к блогу. • Self-reported

79.6%

Другие тесты

Специализированные бенчмарки

AIME 2025

Расширенное мышление (до 64 тысяч токенов) с параллельными вычислениями во время тестирования (несколько попыток, внутренний выбор модели на основе оценок). Выборка по ядру (top_p 0,95). На основе сносок 4, 5 и приложения к блогу. • Self-reported

75.5%

ARC-AGI v2

точность • Verified

8.6%

MMMLU

Расширенное размышление (до 64K токенов). Среднее значение по 14 неанглийским языкам. На основе приложения к блогу и сноски 3. • Self-reported

88.8%

MMMU (validation)

Расширенное мышление (до 64K токенов). На основе приложения к блогу. • Self-reported

76.5%

TAU-bench Airline

Расширенное мышление с использованием инструментов (до 64K токенов, дополнение к промпту, увеличенное максимальное количество шагов). Основано на приложении к блогу и методологии TAU-bench. • Self-reported

59.6%

TAU-bench Retail

Расширенное размышление с использованием инструментов (до 64K токенов, дополнение к промпту, увеличенное максимальное количество шагов). Основано на приложении к блогу и методологии TAU-bench. • Self-reported

81.4%

Terminal-bench

Параллельные вычисления при тестировании (множественные попытки, выбор с помощью внутренней модели оценки). Без расширенного режима размышления. Claude Code в качестве агентного фреймворка. На основе сносок 2 и 5. • Self-reported

39.2%