Claude 3 Sonnet
МультимодальнаяClaude 3 Sonnet достигает идеального баланса между интеллектом и скоростью — особенно для корпоративных рабочих нагрузок. Модель обеспечивает высокую производительность при более низкой стоимости по сравнению с конкурентами и спроектирована для высокой выносливости в крупномасштабных развертываниях ИИ.
Основные характеристики
Параметры
-
Контекст
200.0K
Дата выпуска
29 февраля 2024 г.
Средний балл
73.8%
Временная шкала
Ключевые даты в истории модели
Анонс
29 февраля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$3.00
Выход (за 1М токенов)
$15.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
200.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
10-shot
В 10-shot промпте, вопрос сначала задается LLM с 10 примерами, демонстрирующими правильные ответы. Затем задается целевой вопрос, на который LLM должен ответить.
Примеры являются демонстрационными и выполняют роль иллюстраций того, как решать проблему. Они должны быть подобраны так, чтобы охватывать разнообразные случаи в пространстве решений, и не должны быть слишком похожими друг на друга или на целевой вопрос.
10-shot промпт часто дает лучшие результаты, чем 0-shot и 1-shot методы, и приближается к эффективности fine-tuning для некоторых задач. Однако у него есть недостатки. 10-shot промпт занимает значительную часть контекстного окна, что увеличивает стоимость и может создать конкуренцию за ресурсы внимания с основным заданием.
10-shot промпт полезен, когда задача требует демонстрации разнообразных методов решения, но не так хорош, когда задача простая или когда разработчик может сформулировать ясные инструкции для решения задачи без примеров. • Self-reported
MMLU
5-shot • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Для исследования возможностей моделей мы используем нулевой шот (0-shot), который означает, что модель не получает примеров решения задачи перед тем, как ее просят выполнить задание. Мы предпочитаем этот подход по нескольким причинам:
1. Это реалистичный сценарий использования для большинства людей, взаимодействующих с языковыми моделями;
2. Это самый строгий тест способностей модели, не позволяющий ей просто копировать решения из примеров;
3. Это обеспечивает чистую оценку истинных возможностей модели без дополнительных подсказок или шаблонов;
4. Такой подход уменьшает риск случайного раскрытия ответов в примерах.
Для сложных тестов, таких как GPQA, нулевой шот особенно важен, поскольку предоставление примеров может непреднамеренно раскрыть решения или методологию, что снизит достоверность оценки. Используя только вопрос без примеров, мы получаем более чистую оценку базовых знаний и рассуждений модели. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
0-shot CoT
Метод анализа, который позволяет моделям размышлять шаг за шагом для решения задач. В отличие от метода с подсказками с примерами, в этом подходе модель не получает демонстрационные примеры размышлений, а вместо этого её просто просят рассуждать перед предоставлением окончательного ответа.
Обычно модели получают инструкцию, подобную: "Давай решать эту задачу шаг за шагом". Эта простая инструкция позволяет модели разбить сложную задачу на более мелкие компоненты, что приводит к лучшим результатам по сравнению с простым запросом ответа.
Эффективность 0-shot CoT часто оценивается по сравнению с подходами без рассуждений на различных математических и логических задачах. Исследования показывают, что такое явное приглашение к размышлению значительно улучшает производительность модели, особенно при решении сложных задач. • Self-reported
MATH
# 0-shot CoT
Метод "0-shot CoT" (Цепочка размышлений без примеров) основан на идее, что можно побудить языковую модель размышлять поэтапно над решением сложной задачи, не показывая ей конкретные примеры такого пошагового решения.
## Подход
Техника включает в себя добавление простой подсказки, такой как "Давай решим это шаг за шагом", к основному вопросу. Этот подход мотивирует модель разбить решение на последовательные рассуждения вместо того, чтобы сразу предлагать окончательный ответ.
## Преимущества
- **Простота**: Не требует создания примеров демонстраций для обучения модели.
- **Универсальность**: Может применяться к различным типам задач и языковым моделям.
- **Эффективность**: Может значительно улучшить производительность модели на сложных задачах, требующих логического рассуждения.
## Ограничения
- Эффективность зависит от базовых способностей модели к рассуждению.
- Может работать не так хорошо, как few-shot CoT для некоторых конкретных типов задач.
- Качество рассуждений и точность ответов могут варьироваться в зависимости от формулировки подсказки.
## Примеры использования
```
Задача: У Тома было 5 яблок. Он дал 2 яблока Сьюзен и получил 3 яблока от Билла. Сколько яблок у него сейчас?
Запрос с 0-shot CoT: Давай решим это шаг за шагом.
```
## Применение
0-shot CoT особенно полезен для:
- Быстрого тестирования способностей модели к рассуждению
- Ситуаций, когда у вас нет времени или ресурсов для создания подробных примеров
- Универсального улучшения производительности на разнообразных задачах • Self-reported
MGSM
0-shot
Наиболее простой и широко используемый метод измерения производительности LLM на задаче заключается в том, чтобы просто предоставить задачу в качестве промпта без дополнительных указаний или примеров. Недостатком этого подхода является то, что он не использует способность LLM адаптироваться к конкретным форматам, рабочим процессам или стратегиям решения, предоставляемым через указания.
Часто этот метод используется для максимальной сопоставимости между моделями, особенно когда модели не имеют одинаковой длины контекста, чтобы поддерживать более сложные подходы. Это также упрощает воспроизводимость. • Self-reported
Рассуждения
Логические рассуждения и анализ
BIG-Bench Hard
3-shot CoT
В этом режиме инструкции просят модель сгенерировать цепочку рассуждений для трех примеров, прежде чем переходить к целевому примеру. Для каждого из примеров модель получает решение и обоснование, а затем должна применить аналогичный стиль рассуждений к заданному примеру.
3-shot CoT активирует процесс рассуждений, демонстрируя модели, как разбивать сложную задачу на более мелкие, управляемые шаги. Предоставляя несколько примеров, этот метод помогает модели выявить соответствующие шаблоны и усвоить эффективную стратегию решения.
Основное преимущество этого подхода заключается в его способности улучшать производительность на заданиях, требующих пошагового мышления, таких как математические задачи, логические головоломки и другие задачи, где прямой вывод может быть недостаточным для достижения верного решения. • Self-reported
DROP
3-shot, F1 score
F1-оценка — это мера точности, которая представляет собой гармоническое среднее между точностью (precision) и полнотой (recall).
F1-оценка предоставляет единую метрику для оценки компромисса между точностью и полнотой. Она особенно полезна, когда распределение классов несбалансировано.
В 3-shot F1-оценке модель делает предсказания после того, как ей показали 3 примера (3 "выстрела" или "попытки"). Это способ измерения того, насколько хорошо модель может обобщать на основе минимального количества примеров, что важно для оценки способностей немедленного обучения. • Self-reported
GPQA
0-shot CoT - Diamond
Zero-shot Chain of Thought (0-shot CoT) - это подход к решению задач, который побуждает модель предоставлять пошаговое рассуждение, добавляя подсказку "давай подумаем шаг за шагом" перед обычным запросом к модели. Этот метод позволяет языковым моделям структурировать сложные рассуждения без примеров рассуждений, что обычно приводит к лучшим результатам для задач, требующих нескольких шагов мышления.
Разновидность Diamond усовершенствует процесс, структурируя решение в чётком формате: сначала разбирает проблему на составляющие, выделяя известную информацию и запрашиваемую цель, затем последовательно решает проблему, группируя связанные этапы рассуждения. Diamond фокусируется на основных компонентах решения, отбрасывая ненужные детали, что особенно полезно для сложных математических или рассуждающих задач.
Мы используем Diamond 0-shot CoT для оценки, поскольку он эффективно структурирует мышление модели без необходимости в примерах, которые могли бы непреднамеренно подтолкнуть модель к конкретным стратегиям решения. • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
25-shot • Self-reported
MMLU-Pro
0-shot CoT
0-shot Chain-of-Thought (CoT) — это метод, который предлагает языковым моделям подробно размышлять, прежде чем давать окончательный ответ. Это делается путем добавления подсказки, такой как "Давай подумаем шаг за шагом" перед запросом ответа. В отличие от few-shot CoT, который предоставляет примеры цепочек рассуждений, 0-shot CoT не требует никаких примеров.
0-shot CoT является одним из наиболее популярных методов повышения производительности LLM. Он существенно улучшает способность моделей решать арифметические задачи, задачи на здравый смысл и символьные задачи. Метод особенно эффективен для современных LLM с сильными способностями к рассуждению, таких как GPT-4.
Кроме того, 0-shot CoT открывает путь для различных методов продвинутых рассуждений. Например, он позволяет моделям применять стратегии проверки их собственных решений и самокоррекции. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
29 февраля 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиClaude 3.7 Sonnet
Anthropic
MM
Лучший скор:0.8 (GPQA)
Релиз:февр. 2025 г.
Цена:$3.00/1M токенов
Claude 3.5 Sonnet
Anthropic
MM
Лучший скор:0.9 (HumanEval)
Релиз:окт. 2024 г.
Цена:$3.00/1M токенов
Claude 3 Haiku
Anthropic
MM
Лучший скор:0.9 (ARC)
Релиз:март 2024 г.
Цена:$0.25/1M токенов
Claude Sonnet 4
Anthropic
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$3.00/1M токенов
Claude Opus 4
Anthropic
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$15.00/1M токенов
Claude 3.5 Sonnet
Anthropic
MM
Лучший скор:0.9 (HumanEval)
Релиз:июнь 2024 г.
Цена:$3.00/1M токенов
Claude 3 Opus
Anthropic
MM
Лучший скор:1.0 (ARC)
Релиз:февр. 2024 г.
Цена:$15.00/1M токенов
Claude Opus 4.1
Anthropic
MM
Лучший скор:0.8 (TAU)
Релиз:авг. 2025 г.
Цена:$15.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.