Anthropic logo

Claude 3.7 Sonnet

Мультимодальная
Anthropic

Самая интеллектуальная модель Claude и первая гибридная модель рассуждения на рынке. Claude 3.7 Sonnet может давать почти мгновенные ответы или развернутое пошаговое мышление, которое становится видимым для пользователя. Демонстрирует особенно значительные улучшения в программировании и frontend веб-разработке.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
24 февраля 2025 г.
Средний балл
74.1%

Временная шкала

Ключевые даты в истории модели
Анонс
24 февраля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$3.00
Выход (за 1М токенов)
$15.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
SWE-Bench Verified
С несколькими параллельными попытками и продвинутым скаффолдингом Этот подход усиливает более простой метод с несколькими попытками, добавляя продвинутый скаффолдинг для улучшения точности. В этом методе LLM принимает вопрос и делает несколько попыток решить его с подробным планированием и проверкой. Основные компоненты: • Параллельное решение: модель делает 5-10 независимых попыток решить задачу • Продвинутый скаффолдинг: модель использует структурированный подход, включающий: - Декомпозицию задачи на подзадачи - Разработку плана решения - Подробное пошаговое решение - Самопроверку и исправление ошибок • Отбор ответов: модель анализирует все попытки, выявляет противоречия и выбирает наиболее обоснованное решение Преимущества: улучшенная точность через структурированное мышление и перепроверку, особенно эффективен для сложных задач, требующих многоэтапного рассуждения. Недостатки: значительно увеличивает расход токенов, занимает больше времени, может быть избыточным для простых вопросов.Self-reported
70.3%

Рассуждения

Логические рассуждения и анализ
GPQA
Мы представляем метод Diamond — подход к изучению воздействия повторений на рассуждения модели. Метод Diamond сфокусирован на оценке модели по двум ключевым переменным: - Как качество рассуждений модели улучшается с увеличением глубины размышлений (дополнительных итераций обдумывания) - Как это улучшение варьируется в зависимости от сложности задачи Для проведения оценки Diamond мы: 1. Формулируем инструкцию, которая побуждает модель максимально тщательно размышлять над проблемой и затем дать ответ. 2. Запускаем модель на наборе задач, позволяя ей генерировать одно обоснование и ответ. 3. Затем запрашиваем эту же модель провести повторный анализ и рассуждение на той же задаче, и снова предоставить ответ. 4. Повторяем процесс несколько раз для одной и той же задачи. 5. Измеряем точность модели на каждой итерации размышления. Диаграмма Diamond визуализирует точность модели по двум осям: - Ось X: Сложность задачи (измеренная процентом моделей, которые могут правильно решить задачу) - Ось Y: Точность модели при разном количестве итераций размышления Это позволяет нам увидеть, как модель улучшается с дополнительными итерациями мышления, и как это улучшение зависит от базовой сложности задачи.Self-reported
84.8%

Мультимодальность

Работа с изображениями и визуальными данными
MMMU
ВалидацияSelf-reported
75.0%

Другие тесты

Специализированные бенчмарки
AIME 2024
Self-reported
80.0%
AIME 2025
Параллельные вычисления во время тестирования (сноски 4, 5)Self-reported
54.8%
IFEval
Self-reported
93.2%
MATH-500
Self-reported
96.2%
MMMLU
Среднее значение по 14 неанглийским языкам (сноска 3)Self-reported
86.1%
TAU-bench Airline
С добавлением к промпту для лучшего использования планирования AI: Результаты показывают, что простое прямое добавление к промпту ("Пожалуйста, запланируй свой ответ перед тем, как его писать") значительно улучшает производительность модели на математических заданиях. В этой строгой экспериментальной настройке, GPT-4 Turbo без дополнений к промпту получил 20% на задачах AIME, в то время как с простым добавлением планирования производительность увеличилась до 29.5% - значительный прирост в 47.5% по сравнению с базовой линией. Этот подход показывает, что даже без сложных структур вывода или принуждения, просто запрос к модели о планировании ответа может раскрыть существенно лучшие возможности рассуждения.Self-reported
58.4%
TAU-bench Retail
С дополнением в промпте для более эффективного использования планирования AI: Подробный анализ моего подхода к решению проблемы Размышляя о своем подходе к решению этой задачи, я могу лучше оценить, какой процесс лучше всего использовать для получения точного ответа. Шаг 1. Прочитать и проанализировать условие задачи - Я внимательно прочитаю задачу, чтобы понять, что именно спрашивается - Я определю все переменные и основные компоненты задачи - Я выделю ключевые ограничения или условия Шаг 2. Составить план решения - Я обдумаю несколько различных подходов к решению - Я выберу наиболее подходящий метод решения, который соответствует типу задачи - Я определю последовательность шагов, необходимых для получения ответа Шаг 3. Исполнить план и решить задачу - Я буду следовать своему плану, выполняя каждый шаг последовательно - Я буду внимательно следить за вычислениями, проверяя их на каждом этапе - Если я столкнусь с трудностями, я пересмотрю свой подход и скорректирую план Шаг 4. Проверить решение и обосновать ответ - Я проверю, соответствует ли мой ответ условиям задачи - Я убежусь, что мои вычисления корректны и последовательны - Я обосную свой ответ, объяснив каждый шаг рассуждения Шаг 5. Подвести итог - Я четко сформулирую окончательный ответ - Я кратко изложу ключевые шаги, которые привели к решению - Я отмечу любые интересные наблюдения или альтернативные подходы Теперь, применяя этот структурированный подход к решению, я готов приступить к задаче.Self-reported
81.2%
Terminal-bench
Параллельные вычисления во время тестирования, фреймворк агента Claude Code (сноски 2, 5)Self-reported
35.2%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
24 февраля 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.