Claude 3.7 Sonnet
МультимодальнаяСамая интеллектуальная модель Claude и первая гибридная модель рассуждения на рынке. Claude 3.7 Sonnet может давать почти мгновенные ответы или развернутое пошаговое мышление, которое становится видимым для пользователя. Демонстрирует особенно значительные улучшения в программировании и frontend веб-разработке.
Основные характеристики
Параметры
-
Контекст
200.0K
Дата выпуска
24 февраля 2025 г.
Средний балл
74.1%
Временная шкала
Ключевые даты в истории модели
Анонс
24 февраля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$3.00
Выход (за 1М токенов)
$15.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Программирование
Тесты на навыки программирования
SWE-Bench Verified
С несколькими параллельными попытками и продвинутым скаффолдингом
Этот подход усиливает более простой метод с несколькими попытками, добавляя продвинутый скаффолдинг для улучшения точности. В этом методе LLM принимает вопрос и делает несколько попыток решить его с подробным планированием и проверкой. Основные компоненты:
• Параллельное решение: модель делает 5-10 независимых попыток решить задачу
• Продвинутый скаффолдинг: модель использует структурированный подход, включающий:
- Декомпозицию задачи на подзадачи
- Разработку плана решения
- Подробное пошаговое решение
- Самопроверку и исправление ошибок
• Отбор ответов: модель анализирует все попытки, выявляет противоречия и выбирает наиболее обоснованное решение
Преимущества: улучшенная точность через структурированное мышление и перепроверку, особенно эффективен для сложных задач, требующих многоэтапного рассуждения.
Недостатки: значительно увеличивает расход токенов, занимает больше времени, может быть избыточным для простых вопросов. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Мы представляем метод Diamond — подход к изучению воздействия повторений на рассуждения модели.
Метод Diamond сфокусирован на оценке модели по двум ключевым переменным:
- Как качество рассуждений модели улучшается с увеличением глубины размышлений (дополнительных итераций обдумывания)
- Как это улучшение варьируется в зависимости от сложности задачи
Для проведения оценки Diamond мы:
1. Формулируем инструкцию, которая побуждает модель максимально тщательно размышлять над проблемой и затем дать ответ.
2. Запускаем модель на наборе задач, позволяя ей генерировать одно обоснование и ответ.
3. Затем запрашиваем эту же модель провести повторный анализ и рассуждение на той же задаче, и снова предоставить ответ.
4. Повторяем процесс несколько раз для одной и той же задачи.
5. Измеряем точность модели на каждой итерации размышления.
Диаграмма Diamond визуализирует точность модели по двум осям:
- Ось X: Сложность задачи (измеренная процентом моделей, которые могут правильно решить задачу)
- Ось Y: Точность модели при разном количестве итераций размышления
Это позволяет нам увидеть, как модель улучшается с дополнительными итерациями мышления, и как это улучшение зависит от базовой сложности задачи. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MMMU
Валидация • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
• Self-reported
AIME 2025
Параллельные вычисления во время тестирования (сноски 4, 5) • Self-reported
IFEval
• Self-reported
MATH-500
• Self-reported
MMMLU
Среднее значение по 14 неанглийским языкам (сноска 3) • Self-reported
TAU-bench Airline
С добавлением к промпту для лучшего использования планирования
AI: Результаты показывают, что простое прямое добавление к промпту ("Пожалуйста, запланируй свой ответ перед тем, как его писать") значительно улучшает производительность модели на математических заданиях. В этой строгой экспериментальной настройке, GPT-4 Turbo без дополнений к промпту получил 20% на задачах AIME, в то время как с простым добавлением планирования производительность увеличилась до 29.5% - значительный прирост в 47.5% по сравнению с базовой линией. Этот подход показывает, что даже без сложных структур вывода или принуждения, просто запрос к модели о планировании ответа может раскрыть существенно лучшие возможности рассуждения. • Self-reported
TAU-bench Retail
С дополнением в промпте для более эффективного использования планирования
AI: Подробный анализ моего подхода к решению проблемы
Размышляя о своем подходе к решению этой задачи, я могу лучше оценить, какой процесс лучше всего использовать для получения точного ответа.
Шаг 1. Прочитать и проанализировать условие задачи
- Я внимательно прочитаю задачу, чтобы понять, что именно спрашивается
- Я определю все переменные и основные компоненты задачи
- Я выделю ключевые ограничения или условия
Шаг 2. Составить план решения
- Я обдумаю несколько различных подходов к решению
- Я выберу наиболее подходящий метод решения, который соответствует типу задачи
- Я определю последовательность шагов, необходимых для получения ответа
Шаг 3. Исполнить план и решить задачу
- Я буду следовать своему плану, выполняя каждый шаг последовательно
- Я буду внимательно следить за вычислениями, проверяя их на каждом этапе
- Если я столкнусь с трудностями, я пересмотрю свой подход и скорректирую план
Шаг 4. Проверить решение и обосновать ответ
- Я проверю, соответствует ли мой ответ условиям задачи
- Я убежусь, что мои вычисления корректны и последовательны
- Я обосную свой ответ, объяснив каждый шаг рассуждения
Шаг 5. Подвести итог
- Я четко сформулирую окончательный ответ
- Я кратко изложу ключевые шаги, которые привели к решению
- Я отмечу любые интересные наблюдения или альтернативные подходы
Теперь, применяя этот структурированный подход к решению, я готов приступить к задаче. • Self-reported
Terminal-bench
Параллельные вычисления во время тестирования, фреймворк агента Claude Code (сноски 2, 5) • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
24 февраля 2025 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиClaude 3 Sonnet
Anthropic
MM
Лучший скор:0.9 (ARC)
Релиз:февр. 2024 г.
Цена:$3.00/1M токенов
Claude 3.5 Sonnet
Anthropic
MM
Лучший скор:0.9 (HumanEval)
Релиз:окт. 2024 г.
Цена:$3.00/1M токенов
Claude 3 Haiku
Anthropic
MM
Лучший скор:0.9 (ARC)
Релиз:март 2024 г.
Цена:$0.25/1M токенов
Claude Sonnet 4
Anthropic
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$3.00/1M токенов
Claude Opus 4
Anthropic
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$15.00/1M токенов
Claude 3.5 Sonnet
Anthropic
MM
Лучший скор:0.9 (HumanEval)
Релиз:июнь 2024 г.
Цена:$3.00/1M токенов
Claude 3 Opus
Anthropic
MM
Лучший скор:1.0 (ARC)
Релиз:февр. 2024 г.
Цена:$15.00/1M токенов
Claude Opus 4.1
Anthropic
MM
Лучший скор:0.8 (TAU)
Релиз:авг. 2025 г.
Цена:$15.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.