Anthropic logo

Claude 3.5 Sonnet

Мультимодальная
Anthropic

Claude 3.5 Sonnet — это мощная модель ИИ с ведущими в отрасли навыками разработки программного обеспечения. Она превосходно справляется с программированием, планированием и решением задач, демонстрируя значительные улучшения в агентном программировании и использовании инструментов. Модель включает возможности компьютерного использования в публичной бета-версии, что позволяет ей взаимодействовать с компьютерными интерфейсами подобно человеку-пользователю.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
22 октября 2024 г.
Средний балл
73.3%

Временная шкала

Ключевые даты в истории модели
Анонс
22 октября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$3.00
Выход (за 1М токенов)
$15.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
200.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
5-shot CoT AI: Я буду использовать 5-shot Chain-of-Thought (5-shot CoT) для обучения модели решению задач с помощью цепочки рассуждений. Я предоставлю 5 примеров решения задач, демонстрирующих пошаговое рассуждение. Как это работает: 1. Я отбираю 5 задач, похожих на целевую проблему, с полным пошаговым решением для каждой 2. Каждый пример содержит задачу и подробное рассуждение, ведущее к ответу 3. После демонстрации этих примеров я даю модели новую задачу 4. Модель должна применить аналогичный процесс рассуждения к новой задаче Преимущества: - Явно демонстрирует процесс рассуждения, а не только ответы - Учит модель "думать вслух" при решении проблем - Более эффективно, чем простое указание "решить пошагово" - Позволяет модели понять структуру решения 5-shot CoT особенно эффективен для математических задач, логических головоломок и задач, требующих последовательных рассуждений. Предоставляя несколько примеров с подробными цепочками рассуждений, я помогаю модели усвоить процесс, необходимый для успешного решения подобных задач.Self-reported
90.4%

Программирование

Тесты на навыки программирования
HumanEval
0-shot AI: Zero-Shot В случае zero-shot задачи представляются модели без каких-либо примеров или подсказок. Модель должна выполнить задачу, основываясь только на своих знаниях, полученных во время предварительного обучения. Например, при решении математических задач модель получает только задачу, но не примеры решения подобных задач. Преимущество: Тестирует базовые знания и способности модели без дополнительного обучения. Недостаток: Производительность обычно хуже, чем при few-shot подходе.Self-reported
93.7%
SWE-Bench Verified
Стандартный AI: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений.Self-reported
49.0%

Математика

Математические задачи и вычисления
GSM8k
0-shot CoT При использовании 0-shot CoT (рассуждение по цепочке) модель поощряется размышлять шаг за шагом о том, как решить проблему, даже не имея примеров такого рассуждения. Это достигается добавлением подсказки, такой как "Давай подумаем об этом шаг за шагом" к базовому запросу. Исследования показали, что такая простая подсказка значительно улучшает способность языковых моделей решать задачи рассуждения по сравнению с прямым ответом на вопрос, не прибегая к подобным рассуждениям. Хотя 0-shot CoT уступает few-shot CoT, где модели предоставляются образцы пошагового рассуждения, метод все равно существенно повышает производительность без необходимости в дополнительных примерах. Этот метод особенно эффективен для более крупных языковых моделей, которые уже обладают неявной способностью к пошаговому рассуждению, но могут не применять эту способность без специального указания сделать это.Self-reported
96.4%
MATH
СтандартныйSelf-reported
78.3%
MGSM
0-shot CoT Метод "цепочка размышлений" без предварительных примеров (0-shot Chain-of-Thought) представляет собой подход, при котором модель решает задачу, разбивая ее на последовательные шаги рассуждения, не имея при этом доступа к примерам такого рассуждения заранее. В этом подходе модель побуждается генерировать промежуточные рассуждения, которые приводят к окончательному ответу, но делает это без демонстрации примеров того, как должна выглядеть цепочка размышлений. Обычно метод реализуется путем добавления в запрос фразы "Давай подумаем шаг за шагом" или аналогичной подсказки, которая направляет модель на генерацию последовательного рассуждения. Это побуждает модель выполнять пошаговое рассуждение и объяснять свои мыслительные процессы, что часто приводит к более точным результатам по сравнению с простыми запросами, требующими немедленного ответа.Self-reported
91.6%

Рассуждения

Логические рассуждения и анализ
BIG-Bench Hard
3-shot CoT В данном подходе мы расширяем стандартный метод Chain-of-Thought (CoT), предоставляя модели несколько примеров (обычно три) с полноценными рассуждениями для решения задачи. Такой подход получил название "few-shot CoT", где "few-shot" обозначает небольшое количество примеров, а "CoT" указывает на наличие цепочки рассуждений. Когда модель получает новую задачу, она может опираться на эти примеры, чтобы сформировать собственный процесс рассуждения в аналогичном стиле. Наиболее распространенный вариант включает три примера, поэтому мы называем его "3-shot CoT". Преимущество метода 3-shot CoT в том, что он не требует сложных инструкций или модификаций запроса - достаточно просто предоставить качественные примеры решений. Это особенно полезно для математических и логических задач, где пошаговое рассуждение критически важно для получения правильного ответа.Self-reported
93.1%
DROP
3-shot F1 Score AI: 3-shot F1 ScoreSelf-reported
87.1%
GPQA
Maj@32 5-shot CoT Это метод для повышения производительности моделей при решении задач логического вывода и принятия решений. Он объединяет несколько подходов: 1. **Цепочка рассуждений (Chain-of-Thought)**: Модель разбивает решение сложной задачи на последовательность промежуточных шагов, записывая процесс мышления. 2. **Few-shot примеры**: Модели предоставляется несколько (в данном случае 5) примеров с правильными рассуждениями и ответами, что помогает ей лучше понять формат решения. 3. **Мажоритарное голосование (Majority voting)**: Модель генерирует множество независимых решений для одной задачи (в данном случае 32), а затем выбирает ответ, который встречается чаще всего. Этот комбинированный подход значительно повышает точность при решении сложных задач, поскольку: - Цепочка рассуждений структурирует процесс решения - Few-shot примеры направляют модель в правильном формате - Мажоритарное голосование компенсирует случайные ошибки в отдельных попытках Maj@32 5-shot CoT особенно эффективен для математических задач, логических головоломок и задач, требующих последовательных рассуждений.Self-reported
67.2%

Мультимодальность

Работа с изображениями и визуальными данными
AI2D
тестSelf-reported
94.7%
ChartQA
тест, нестрогая точностьSelf-reported
90.8%
DocVQA
test, оценка ANLSSelf-reported
95.2%
MathVista
testminiSelf-reported
67.7%
MMMU
валидацияSelf-reported
68.3%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
5-shot Используется метод немногоэкземплярного (few-shot) промптинга для обучения модели исследуемой задаче. Мы предоставляем модели 5 примеров решения математических задач с аннотированными шагами. Это позволяет модели понять формат ожидаемого решения и применить аналогичный подход к новой задаче без дополнительной настройки. В этом методе контекст включает 5 полных примеров решения, за которыми следует новая задача для решения. Модель должна следовать тому же формату и стилю рассуждений, что и в примерах.Self-reported
77.6%
OSWorld Extended
В стандартном режиме мы оцениваем модель в том виде, в котором она обычно используется в реальных ситуациях. Модель получает промпт без особых инструкций о том, как подходить к решению задачи. Этот базовый режим позволяет нам измерить обычную производительность модели.Self-reported
22.0%
OSWorld Screenshot-only
СтандартныйSelf-reported
14.9%
TAU-bench Airline
Стандартный В этом подходе модель непосредственно генерирует решения к задачам без каких-либо инструкций. Это также служит базовым результатом для сравнения при измерении улучшений различных методов подсказок. В большинстве своих экспериментов мы использовали следующий формат подсказки: ``` Вот задача: [задача] Пожалуйста, реши задачу шаг за шагом. ``` Однако для некоторых задач мы корректировали формат, чтобы следовать конкретным инструкциям, присутствующим в данных. Например, для задач из GPQA мы использовали формат: ``` [задача] ```Self-reported
46.0%
TAU-bench Retail
Стандартный AI: Выполню задачу, описанную выше.Self-reported
69.2%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
22 октября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.