Anthropic logo

Claude Sonnet 4

Мультимодальная
Anthropic

Claude Sonnet 4, входящий в семейство Claude 4, представляет собой значительное обновление Claude Sonnet 3.7. Модель превосходно справляется с программированием (72,7% на SWE-bench) и логическими рассуждениями, более точно реагируя на инструкции. Sonnet 4 предлагает оптимальное сочетание возможностей и практичности с улучшенной управляемостью и поддерживает расширенное мышление с использованием инструментов.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
22 мая 2025 г.
Средний балл
69.4%

Временная шкала

Ключевые даты в истории модели
Анонс
22 мая 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$3.00
Выход (за 1М токенов)
$15.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
SWE-Bench Verified
Параллельные вычисления во время тестирования (множественные попытки, выбор с помощью внутренней модели оценки). Без расширенного размышления. На основе сноски 5 и методологии SWE-bench для высокопроизводительных вычислений.Self-reported
72.7%

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond: Расширенное размышление (до 64 тыс. токенов) с параллельными вычислениями во время тестирования (множественные попытки, выбор с помощью внутренней модели оценки). На основе сноски 5 и приложения к блогу.Self-reported
75.4%

Мультимодальность

Работа с изображениями и визуальными данными
MMMU
Расширенное мышление (до 64K токенов). На основе приложения к блогу.Self-reported
74.4%

Другие тесты

Специализированные бенчмарки
AIME 2025
Расширенное размышление (до 64 тыс. токенов) с параллельными вычислениями во время тестирования (несколько попыток, выбор с помощью внутренней модели оценки). Выборка по ядру (top_p 0,95). Основано на сносках 4, 5 и приложении к блогу.Self-reported
70.5%
MMMLU
Расширенное мышление (до 64 тысяч токенов). Среднее значение по 14 неанглийским языкам. На основе приложения к блогу и сноски 3.Self-reported
86.5%
TAU-bench Airline
Расширенное мышление с использованием инструментов (до 64K токенов, дополнение к промпту, увеличенное максимальное количество шагов). Основано на приложении к блогу и методологии TAU-bench.Self-reported
60.0%
TAU-bench Retail
Расширенное размышление с использованием инструментов (до 64K токенов, дополнение к промпту, увеличенное максимальное количество шагов). Основано на приложении к блогу и методологии TAU-bench.Self-reported
80.5%
Terminal-bench
Параллельные вычисления во время тестирования (множественные попытки, внутренний отбор модели по оценке). Без расширенного размышления. Claude Code в качестве фреймворка агента. На основе сносок 2 и 5.Self-reported
35.5%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
22 мая 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.