Claude 3.5 Sonnet

Мультимодальная

Anthropic

Claude 3.5 Sonnet — это мощная модель ИИ с ведущими в отрасли навыками разработки программного обеспечения. Она превосходно справляется с программированием, планированием и решением задач, демонстрируя значительные улучшения в агентном программировании и использовании инструментов. Модель включает возможности компьютерного использования в публичной бета-версии, что позволяет ей взаимодействовать с компьютерными интерфейсами подобно человеку-пользователю.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

22 октября 2024 г.

Средний балл

73.3%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

22 октября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$3.00

Выход (за 1М токенов)

$15.00

Макс. входящих токенов

200.0K

Макс. исходящих токенов

200.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-shot CoT AI: Я буду использовать 5-shot Chain-of-Thought (5-shot CoT) для обучения модели решению задач с помощью цепочки рассуждений. Я предоставлю 5 примеров решения задач, демонстрирующих пошаговое рассуждение. Как это работает: 1. Я отбираю 5 задач, похожих на целевую проблему, с полным пошаговым решением для каждой 2. Каждый пример содержит задачу и подробное рассуждение, ведущее к ответу 3. После демонстрации этих примеров я даю модели новую задачу 4. Модель должна применить аналогичный процесс рассуждения к новой задаче Преимущества: - Явно демонстрирует процесс рассуждения, а не только ответы - Учит модель "думать вслух" при решении проблем - Более эффективно, чем простое указание "решить пошагово" - Позволяет модели понять структуру решения 5-shot CoT особенно эффективен для математических задач, логических головоломок и задач, требующих последовательных рассуждений. Предоставляя несколько примеров с подробными цепочками рассуждений, я помогаю модели усвоить процесс, необходимый для успешного решения подобных задач. • Self-reported

90.4%

Программирование

Тесты на навыки программирования

HumanEval

0-shot AI: Zero-Shot В случае zero-shot задачи представляются модели без каких-либо примеров или подсказок. Модель должна выполнить задачу, основываясь только на своих знаниях, полученных во время предварительного обучения. Например, при решении математических задач модель получает только задачу, но не примеры решения подобных задач. Преимущество: Тестирует базовые знания и способности модели без дополнительного обучения. Недостаток: Производительность обычно хуже, чем при few-shot подходе. • Self-reported

93.7%

SWE-Bench Verified

Стандартный AI: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. • Self-reported

49.0%

Математика

Математические задачи и вычисления

GSM8k

0-shot CoT При использовании 0-shot CoT (рассуждение по цепочке) модель поощряется размышлять шаг за шагом о том, как решить проблему, даже не имея примеров такого рассуждения. Это достигается добавлением подсказки, такой как "Давай подумаем об этом шаг за шагом" к базовому запросу. Исследования показали, что такая простая подсказка значительно улучшает способность языковых моделей решать задачи рассуждения по сравнению с прямым ответом на вопрос, не прибегая к подобным рассуждениям. Хотя 0-shot CoT уступает few-shot CoT, где модели предоставляются образцы пошагового рассуждения, метод все равно существенно повышает производительность без необходимости в дополнительных примерах. Этот метод особенно эффективен для более крупных языковых моделей, которые уже обладают неявной способностью к пошаговому рассуждению, но могут не применять эту способность без специального указания сделать это. • Self-reported

96.4%

MATH

Стандартный • Self-reported

78.3%

MGSM

0-shot CoT Метод "цепочка размышлений" без предварительных примеров (0-shot Chain-of-Thought) представляет собой подход, при котором модель решает задачу, разбивая ее на последовательные шаги рассуждения, не имея при этом доступа к примерам такого рассуждения заранее. В этом подходе модель побуждается генерировать промежуточные рассуждения, которые приводят к окончательному ответу, но делает это без демонстрации примеров того, как должна выглядеть цепочка размышлений. Обычно метод реализуется путем добавления в запрос фразы "Давай подумаем шаг за шагом" или аналогичной подсказки, которая направляет модель на генерацию последовательного рассуждения. Это побуждает модель выполнять пошаговое рассуждение и объяснять свои мыслительные процессы, что часто приводит к более точным результатам по сравнению с простыми запросами, требующими немедленного ответа. • Self-reported

91.6%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

3-shot CoT В данном подходе мы расширяем стандартный метод Chain-of-Thought (CoT), предоставляя модели несколько примеров (обычно три) с полноценными рассуждениями для решения задачи. Такой подход получил название "few-shot CoT", где "few-shot" обозначает небольшое количество примеров, а "CoT" указывает на наличие цепочки рассуждений. Когда модель получает новую задачу, она может опираться на эти примеры, чтобы сформировать собственный процесс рассуждения в аналогичном стиле. Наиболее распространенный вариант включает три примера, поэтому мы называем его "3-shot CoT". Преимущество метода 3-shot CoT в том, что он не требует сложных инструкций или модификаций запроса - достаточно просто предоставить качественные примеры решений. Это особенно полезно для математических и логических задач, где пошаговое рассуждение критически важно для получения правильного ответа. • Self-reported

93.1%

DROP

3-shot F1 Score AI: 3-shot F1 Score • Self-reported

87.1%

GPQA

Maj@32 5-shot CoT Это метод для повышения производительности моделей при решении задач логического вывода и принятия решений. Он объединяет несколько подходов: 1. **Цепочка рассуждений (Chain-of-Thought)**: Модель разбивает решение сложной задачи на последовательность промежуточных шагов, записывая процесс мышления. 2. **Few-shot примеры**: Модели предоставляется несколько (в данном случае 5) примеров с правильными рассуждениями и ответами, что помогает ей лучше понять формат решения. 3. **Мажоритарное голосование (Majority voting)**: Модель генерирует множество независимых решений для одной задачи (в данном случае 32), а затем выбирает ответ, который встречается чаще всего. Этот комбинированный подход значительно повышает точность при решении сложных задач, поскольку: - Цепочка рассуждений структурирует процесс решения - Few-shot примеры направляют модель в правильном формате - Мажоритарное голосование компенсирует случайные ошибки в отдельных попытках Maj@32 5-shot CoT особенно эффективен для математических задач, логических головоломок и задач, требующих последовательных рассуждений. • Self-reported

67.2%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

тест • Self-reported

94.7%

ChartQA

тест, нестрогая точность • Self-reported

90.8%

DocVQA

test, оценка ANLS • Self-reported

95.2%

MathVista

testmini • Self-reported

67.7%

MMMU

валидация • Self-reported

68.3%

Другие тесты

Специализированные бенчмарки

MMLU-Pro

5-shot Используется метод немногоэкземплярного (few-shot) промптинга для обучения модели исследуемой задаче. Мы предоставляем модели 5 примеров решения математических задач с аннотированными шагами. Это позволяет модели понять формат ожидаемого решения и применить аналогичный подход к новой задаче без дополнительной настройки. В этом методе контекст включает 5 полных примеров решения, за которыми следует новая задача для решения. Модель должна следовать тому же формату и стилю рассуждений, что и в примерах. • Self-reported

77.6%

OSWorld Extended

В стандартном режиме мы оцениваем модель в том виде, в котором она обычно используется в реальных ситуациях. Модель получает промпт без особых инструкций о том, как подходить к решению задачи. Этот базовый режим позволяет нам измерить обычную производительность модели. • Self-reported

22.0%

OSWorld Screenshot-only

Стандартный • Self-reported

14.9%

TAU-bench Airline

Стандартный В этом подходе модель непосредственно генерирует решения к задачам без каких-либо инструкций. Это также служит базовым результатом для сравнения при измерении улучшений различных методов подсказок. В большинстве своих экспериментов мы использовали следующий формат подсказки: ``` Вот задача: [задача] Пожалуйста, реши задачу шаг за шагом. ``` Однако для некоторых задач мы корректировали формат, чтобы следовать конкретным инструкциям, присутствующим в данных. Например, для задач из GPQA мы использовали формат: ``` [задача] ``` • Self-reported

46.0%

TAU-bench Retail

Стандартный AI: Выполню задачу, описанную выше. • Self-reported

69.2%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

22 октября 2024 г.

Последнее обновление

19 июля 2025 г.

Claude 3.5 Sonnet

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Claude 3.7 Sonnet

Claude 3 Sonnet

Claude 3.5 Sonnet

Claude 3 Opus

Claude 3 Haiku

Claude Sonnet 4

Claude Opus 4

Claude Opus 4.1