Claude 3.7 Sonnet

Мультимодальная

Anthropic

Самая интеллектуальная модель Claude и первая гибридная модель рассуждения на рынке. Claude 3.7 Sonnet может давать почти мгновенные ответы или развернутое пошаговое мышление, которое становится видимым для пользователя. Демонстрирует особенно значительные улучшения в программировании и frontend веб-разработке.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

24 февраля 2025 г.

Средний балл

74.1%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

24 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$3.00

Выход (за 1М токенов)

$15.00

Макс. входящих токенов

200.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

SWE-Bench Verified

С несколькими параллельными попытками и продвинутым скаффолдингом Этот подход усиливает более простой метод с несколькими попытками, добавляя продвинутый скаффолдинг для улучшения точности. В этом методе LLM принимает вопрос и делает несколько попыток решить его с подробным планированием и проверкой. Основные компоненты: • Параллельное решение: модель делает 5-10 независимых попыток решить задачу • Продвинутый скаффолдинг: модель использует структурированный подход, включающий: - Декомпозицию задачи на подзадачи - Разработку плана решения - Подробное пошаговое решение - Самопроверку и исправление ошибок • Отбор ответов: модель анализирует все попытки, выявляет противоречия и выбирает наиболее обоснованное решение Преимущества: улучшенная точность через структурированное мышление и перепроверку, особенно эффективен для сложных задач, требующих многоэтапного рассуждения. Недостатки: значительно увеличивает расход токенов, занимает больше времени, может быть избыточным для простых вопросов. • Self-reported

70.3%

Рассуждения

Логические рассуждения и анализ

GPQA

Мы представляем метод Diamond — подход к изучению воздействия повторений на рассуждения модели. Метод Diamond сфокусирован на оценке модели по двум ключевым переменным: - Как качество рассуждений модели улучшается с увеличением глубины размышлений (дополнительных итераций обдумывания) - Как это улучшение варьируется в зависимости от сложности задачи Для проведения оценки Diamond мы: 1. Формулируем инструкцию, которая побуждает модель максимально тщательно размышлять над проблемой и затем дать ответ. 2. Запускаем модель на наборе задач, позволяя ей генерировать одно обоснование и ответ. 3. Затем запрашиваем эту же модель провести повторный анализ и рассуждение на той же задаче, и снова предоставить ответ. 4. Повторяем процесс несколько раз для одной и той же задачи. 5. Измеряем точность модели на каждой итерации размышления. Диаграмма Diamond визуализирует точность модели по двум осям: - Ось X: Сложность задачи (измеренная процентом моделей, которые могут правильно решить задачу) - Ось Y: Точность модели при разном количестве итераций размышления Это позволяет нам увидеть, как модель улучшается с дополнительными итерациями мышления, и как это улучшение зависит от базовой сложности задачи. • Self-reported

84.8%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

Валидация • Self-reported

75.0%

Другие тесты

Специализированные бенчмарки

AIME 2024

• Self-reported

80.0%

AIME 2025

Параллельные вычисления во время тестирования (сноски 4, 5) • Self-reported

54.8%

IFEval

• Self-reported

93.2%

MATH-500

• Self-reported

96.2%

MMMLU

Среднее значение по 14 неанглийским языкам (сноска 3) • Self-reported

86.1%

TAU-bench Airline

С добавлением к промпту для лучшего использования планирования AI: Результаты показывают, что простое прямое добавление к промпту ("Пожалуйста, запланируй свой ответ перед тем, как его писать") значительно улучшает производительность модели на математических заданиях. В этой строгой экспериментальной настройке, GPT-4 Turbo без дополнений к промпту получил 20% на задачах AIME, в то время как с простым добавлением планирования производительность увеличилась до 29.5% - значительный прирост в 47.5% по сравнению с базовой линией. Этот подход показывает, что даже без сложных структур вывода или принуждения, просто запрос к модели о планировании ответа может раскрыть существенно лучшие возможности рассуждения. • Self-reported

58.4%

TAU-bench Retail

С дополнением в промпте для более эффективного использования планирования AI: Подробный анализ моего подхода к решению проблемы Размышляя о своем подходе к решению этой задачи, я могу лучше оценить, какой процесс лучше всего использовать для получения точного ответа. Шаг 1. Прочитать и проанализировать условие задачи - Я внимательно прочитаю задачу, чтобы понять, что именно спрашивается - Я определю все переменные и основные компоненты задачи - Я выделю ключевые ограничения или условия Шаг 2. Составить план решения - Я обдумаю несколько различных подходов к решению - Я выберу наиболее подходящий метод решения, который соответствует типу задачи - Я определю последовательность шагов, необходимых для получения ответа Шаг 3. Исполнить план и решить задачу - Я буду следовать своему плану, выполняя каждый шаг последовательно - Я буду внимательно следить за вычислениями, проверяя их на каждом этапе - Если я столкнусь с трудностями, я пересмотрю свой подход и скорректирую план Шаг 4. Проверить решение и обосновать ответ - Я проверю, соответствует ли мой ответ условиям задачи - Я убежусь, что мои вычисления корректны и последовательны - Я обосную свой ответ, объяснив каждый шаг рассуждения Шаг 5. Подвести итог - Я четко сформулирую окончательный ответ - Я кратко изложу ключевые шаги, которые привели к решению - Я отмечу любые интересные наблюдения или альтернативные подходы Теперь, применяя этот структурированный подход к решению, я готов приступить к задаче. • Self-reported

81.2%

Terminal-bench

Параллельные вычисления во время тестирования, фреймворк агента Claude Code (сноски 2, 5) • Self-reported

35.2%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

24 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

Claude 3.7 Sonnet

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Claude 3 Sonnet

Claude 3.5 Sonnet

Claude 3 Haiku

Claude Sonnet 4

Claude Opus 4

Claude Haiku 4.5

Claude 3.5 Sonnet

Claude 3 Opus