Anthropic logo

Claude 3.5 Sonnet

Мультимодальная
Anthropic

Claude 3.5 Sonnet — это мощная модель ИИ. Она превосходно справляется с рассуждениями на уровне аспирантуры, обладает знаниями на уровне бакалавриата и высокой компетентностью в программировании, с улучшенным пониманием нюансов, юмора и сложных инструкций.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
21 июня 2024 г.
Средний балл
84.1%

Временная шкала

Ключевые даты в истории модели
Анонс
21 июня 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$3.00
Выход (за 1М токенов)
$15.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
200.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
5-shot CoT При использовании 5-shot Chain-of-Thought Prompting (5-примерное пошаговое рассуждение) языковой модели предоставляются 5 примеров задач вместе с детальными решениями, демонстрирующими процесс рассуждения шаг за шагом. Этот метод побуждает модель имитировать аналогичную структуру рассуждений при решении новых задач. Данный метод особенно эффективен для задач, требующих многоэтапных рассуждений. Предоставляя примеры с промежуточными шагами, модель учится не только давать ответ, но и структурировать процесс размышления, ведущий к этому ответу. Это значительно улучшает производительность в сложных задачах, таких как арифметические вычисления, логические головоломки и решение математических задач. Метод 5-shot CoT можно рассматривать как расширение стандартного few-shot prompting, но с добавлением элемента "пошагового рассуждения" в каждый пример. Это позволяет модели лучше воспринимать структуру рассуждений и последовательно применять промежуточные этапы при формировании решения.Self-reported
90.4%

Программирование

Тесты на навыки программирования
HumanEval
0-shot 0-shot относится к способности LLM выполнять задачи без примеров или инструкций, демонстрирующих, как выполнить задачу. Это считается одним из наиболее сложных режимов, в которых LLM должен функционировать, поскольку он не получает никаких подсказок или ориентиров для выполнения задачи. Для многих исследователей и разработчиков 0-shot — это золотой стандарт тестирования LLM, поскольку он демонстрирует, насколько хорошо модель обобщает и применяет знания в новых контекстах без дополнительного обучения или подсказок. В контексте задач мышления, 0-shot требует от модели самостоятельного структурирования мыслительного процесса и выработки собственного подхода к решению проблемы.Self-reported
92.0%

Математика

Математические задачи и вычисления
GSM8k
0-shot CoT При использовании 0-shot CoT (цепочка рассуждений без примеров) модель побуждается предоставить пошаговые рассуждения перед ответом на заданный вопрос. В отличие от стандартных запросов, которые просто просят предоставить ответ, 0-shot CoT добавляет фразу "давай решим это шаг за шагом" или аналогичное указание к основному вопросу. Этот метод не требует обучения модели на примерах рассуждений; вместо этого он основывается на уже существующих возможностях рассуждения модели, просто побуждая их проявиться. Модель, использующая 0-shot CoT, вначале анализирует проблему, разбивая ее на более мелкие, управляемые части, последовательно решает каждую из них и, наконец, объединяет эти решения для формирования окончательного ответа. Этот подход особенно полезен для математических или логических задач, сложных многоступенчатых рассуждений или когда важен процесс получения ответа, а не только сам ответ.Self-reported
96.4%
MATH
0-shot CoT Chain-of-Thought (CoT, цепочка рассуждений) - это метод, предложенный Wei et al. (2022), который использует демонстрацию пошагового процесса рассуждения перед получением конечного ответа. "0-shot" означает, что модель не получает примеров таких рассуждений. В 0-shot CoT модель поощряется к рассуждению с помощью подсказки вроде "Давай подумаем шаг за шагом", после чего следует задача. Такое простое вмешательство часто существенно улучшает способность модели решать сложные задачи, требующие нескольких шагов рассуждения. При оценке производительности 0-shot CoT, окончательный ответ извлекается из последнего предложения или явно отмеченного вывода в конце рассуждения модели. Это позволяет моделям использовать промежуточные вычисления для получения точного ответа, вместо того чтобы сразу давать (возможно, ошибочный) ответ.Self-reported
71.1%
MGSM
0-shot CoT Метод генерации цепочки рассуждений с нулевым количеством примеров, где модель инструктируется рассуждать пошагово, прежде чем давать окончательный ответ. В отличие от few-shot CoT (цепочки рассуждений с несколькими примерами), этот метод не предоставляет модели примеры рассуждений, вместо этого полагаясь на подсказки, которые стимулируют ее мыслить последовательно. Подсказки обычно содержат фразы типа "Давай подумаем об этом пошагово" или "Давай рассуждать шаг за шагом", которые побуждают модель выдавать свои промежуточные рассуждения перед представлением ответа. Это особенно полезно для сложных задач, требующих многоэтапного решения. 0-shot CoT был впервые представлен в работе "Large Language Models are Zero-Shot Reasoners" от Kojima и др. (2022), где авторы обнаружили, что простое добавление "Давай подумаем пошагово" к подсказке существенно улучшило производительность моделей на различных задачах рассуждения. Этот метод является простым, но эффективным способом улучшить способности рассуждения языковых моделей без необходимости создания примеров рассуждений вручную, делая его более универсальным и применимым к широкому спектру задач.Self-reported
91.6%

Рассуждения

Логические рассуждения и анализ
BIG-Bench Hard
3-shot CoT (рассуждение по аналогии) - это метод, в котором мы показываем модели несколько (три) примера рассуждений по цепочке для задач, схожих с текущей задачей, а затем просим модель решить новую задачу. Этот метод объединяет преимущества рассуждения по цепочке (chain-of-thought) и обучения по аналогии (few-shot learning). Рассуждение по цепочке (CoT) помогает моделям решать сложные задачи путем разбиения их на более мелкие, последовательные шаги. Добавляя несколько примеров (3-shot), мы предоставляем модели шаблон того, как должно выглядеть хорошее пошаговое рассуждение для конкретного типа задач. Этот подход особенно эффективен для сложных математических, логических или рассудительных задач, где простого ответа недостаточно, и требуется демонстрация цепочки рассуждений.Self-reported
93.1%
DROP
3-shot F1 Score AI: Метрика F1-score, измеренная на 3 примерах, позволяет быстро оценить эффективность модели ИИ. В этом методе мы выбираем 3 репрезентативных примера задачи и измеряем F1-score (гармоническое среднее между точностью и полнотой) на этих примерах. Преимущества метода: • Быстрая оценка без необходимости запускать полный бенчмарк • Хорошая корреляция с полномасштабными оценками для многих типов задач • Удобно для быстрого сравнения разных моделей или промптов Для надежных результатов важно выбирать примеры разной сложности, репрезентативные для задачи. Несмотря на ограниченную выборку, метод часто дает удивительно надежную аппроксимацию общей производительности.Self-reported
87.1%
GPQA
0-shot CoT Одним из самых эффективных подходов к побуждению языковых моделей решать проблемы, требующие пошагового рассуждения, является побуждение к рассуждению с "цепочкой мысли" (chain-of-thought, CoT). В стандартной цепочке рассуждений модель сначала подробно объясняет свой ход рассуждений, прежде чем давать ответ. Было показано, что этот подход значительно улучшает результаты для различных задач, особенно требующих арифметических операций, здравого смысла или логических рассуждений. Простейшей формой CoT является 0-shot CoT, когда модель побуждается к пошаговому рассуждению без каких-либо примеров того, как должно выглядеть такое рассуждение. Обычно это делается путем добавления инструкции "Давай подумаем шаг за шагом" или подобной фразы после представления задачи. Преимуществом 0-shot CoT является его простота, поскольку не требуется предоставлять образцы рассуждений. Однако его эффективность может быть ниже, чем у подходов, где есть примеры (few-shot), особенно для более сложных задач, поскольку модель не получает явного руководства о том, насколько подробным должно быть рассуждение или какие конкретные шаги должны быть включены.Self-reported
59.4%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
5-shotSelf-reported
76.1%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
21 июня 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.