Claude 3 Opus

Мультимодальная

Anthropic

Claude 3 Opus — это самая интеллектуальная модель Anthropic с лучшими на рынке показателями производительности при выполнении высокосложных задач. Она способна справляться с открытыми запросами и непредвиденными сценариями с удивительной беглостью и человекоподобным пониманием, демонстрируя предельные возможности генеративного ИИ.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

29 февраля 2024 г.

Средний балл

81.6%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

29 февраля 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$15.00

Выход (за 1М токенов)

$75.00

Макс. входящих токенов

200.0K

Макс. исходящих токенов

200.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

10-shot Метод 10-shot (10 примеров) представляет собой подход промптинга, при котором LLM (языковой модели) предоставляется 10 демонстрационных примеров, иллюстрирующих ожидаемую задачу и формат ответа, прежде чем модель попросят выполнить задание. В отличие от других методов промптинга с большим количеством примеров, 10-shot обеспечивает баланс между достаточным контекстом для понимания модели и ограничениями контекстного окна. Обычно примеры тщательно подбираются, чтобы охватить разнообразные случаи или сценарии, с которыми модель может столкнуться. 10-shot особенно полезен для: • Обучения решению сложных задач с конкретным ожидаемым форматом • Демонстрации различных логических шаблонов или подходов к решению • Использования, когда промпты 0-shot или few-shot недостаточны • Установки тона, стиля и глубины анализа для ответов модели При оценке с использованием методологии 10-shot модель показывает, как она может извлекать паттерны из предоставленных примеров и применять их к новой задаче, что часто дает результаты выше, чем при методах с меньшим количеством примеров. • Self-reported

95.4%

MMLU

5-shot В нашем исследовании мы сначала даем модели несколько примеров решения задач, а затем оцениваем, насколько хорошо модель может применить то, что она узнала из этих примеров, к новым задачам. Конкретнее, модель должна решить несколько математических головоломок. Мы предоставляем модели 5 пар (задача, решение), и затем просим ее решить новую задачу. Этот подход позволяет нам оценить способность модели изучать новые шаблоны и стратегии решения задач из ограниченного числа примеров. Оценка проводится на 10 различных наборах задач, где каждый набор содержит 5 примеров и 1 тестовую задачу. Мы оцениваем как корректность окончательного ответа, так и обоснованность рассуждений, ведущих к ответу. Этот метод позволяет нам понять, насколько хорошо модель может адаптироваться к новым типам задач без предварительного обучения на больших наборах подобных задач. Это важно для оценки гибкости модели и ее способности к метаобучению. Финальная оценка представляет собой процент правильно решенных тестовых задач по всем 10 наборам. • Self-reported

86.8%

Программирование

Тесты на навыки программирования

HumanEval

Задание без примеров 0-shot означает предоставление модели только инструкции для выполнения задачи без каких-либо примеров, демонстрирующих ожидаемые входные данные и результаты. Это означает, что модель должна полагаться только на свои предварительно обученные знания для интерпретации задачи и генерации соответствующего ответа. Например, если вы хотите, чтобы модель написала стихотворение о цветах, запрос в стиле 0-shot будет просто: "Напиши стихотворение о цветах". Модель должна понять запрос и сгенерировать стихотворение без примеров того, какое стихотворение вы ожидаете увидеть. 0-shot — это базовая настройка для взаимодействия с моделями LLM, и обычно это первый подход, который следует попробовать, прежде чем переходить к более сложным методам подсказок. • Self-reported

84.9%

Математика

Математические задачи и вычисления

GSM8k

**0-shot CoT** Zero-shot Chain-of-Thought (0-shot CoT) — это метод, который побуждает языковую модель выполнять поэтапные рассуждения при решении задач без необходимости использования примеров. В отличие от обычных запросов, где у модели запрашивается непосредственный ответ, метод 0-shot CoT побуждает модель "мыслить поэтапно", чтобы она подробно изложила свой ход мыслей перед тем, как дать ответ. Этот метод обычно реализуется путем добавления простой подсказки, такой как "Давай решим это шаг за шагом" или "Давай подумаем логически", после описания задачи. Такой подход позволяет моделям генерировать промежуточные шаги рассуждения, что часто приводит к более высокой точности, особенно в задачах, требующих нескольких шагов вычислений или логических выводов. Исследования показали, что применение 0-shot CoT может значительно улучшить производительность языковых моделей в различных задачах, включая арифметику, символьные манипуляции и задачи общего вывода, при этом не требуя никаких демонстрационных примеров или дополнительного обучения. • Self-reported

95.0%

MATH

Zero-shot Chain-of-Thought (0-shot CoT) - это техника, которая побуждает модель вести пошаговое рассуждение без специфических примеров. Этот метод был впервые представлен в работе Kojima et al., "Large Language Models are Zero-Shot Reasoners" (2022). В отличие от few-shot CoT, который требует демонстрационных примеров рассуждений, 0-shot CoT использует простые подсказки, такие как "Давай подумаем шаг за шагом" или "Давай решим эту проблему, рассуждая по порядку". Эти фразы стимулируют модель генерировать цепочку промежуточных рассуждений перед формулированием окончательного ответа. Преимущество 0-shot CoT заключается в его простоте и эффективности без необходимости создания примеров рассуждений для каждой задачи. Исследования показали, что даже такие простые подсказки могут значительно улучшить производительность модели в задачах, требующих рассуждений, особенно в математических и логических задачах. Хотя 0-shot CoT не так эффективен, как few-shot CoT в сложных задачах, он представляет собой практичный компромисс, когда создание демонстрационных примеров затруднительно или когда требуется быстрое применение к разнообразным типам задач. • Self-reported

60.1%

MGSM

0-шот AI: Хочу поговорить о математике. Я выберу случайную тему из предуниверситетской математики, решу задачу и объясню своё решение. Я буду рассматривать как алгебру, так и геометрию. Рассмотрим тему "Вероятность". Задача: У нас есть 10 карт, пронумерованных от 1 до 10. Мы случайным образом выбираем 4 карты. Какова вероятность того, что среди выбранных карт будет хотя бы одна карта с номером больше 8? Решение: Чтобы найти вероятность события "среди выбранных карт есть хотя бы одна карта с номером больше 8", я найду вероятность противоположного события "все выбранные карты имеют номера не больше 8", а затем вычту эту вероятность из 1. Общее число способов выбрать 4 карты из 10 равно C(10,4) = 10!/(4!×6!) = 210. Теперь найдем число способов выбрать 4 карты только из карт с номерами от 1 до 8. Это C(8,4) = 8!/(4!×4!) = 70. Таким образом, вероятность того, что все выбранные карты имеют номера не больше 8, равна 70/210 = 1/3. Следовательно, вероятность того, что среди выбранных карт есть хотя бы одна карта с номером больше 8, равна 1 - 1/3 = 2/3. Ответ: 2/3. • Self-reported

90.7%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

3-shot CoT Метод рассуждения по цепочке (Chain-of-Thought, CoT) с тремя примерами. Данный подход расширяет обычный CoT-метод, предоставляя модели три примера того, как разбивать сложные задачи на последовательные шаги рассуждения. Каждый пример демонстрирует процесс пошагового решения, что помогает модели усвоить структуру эффективного рассуждения. При применении 3-shot CoT к новой задаче модель следует продемонстрированному формату, разбивая решение на логические этапы, что особенно полезно для математических и логических задач. Этот метод требует минимальных затрат на инженерную подготовку и показывает значительное улучшение производительности по сравнению с базовыми запросами, обеспечивая более структурированное и прослеживаемое рассуждение. • Self-reported

86.8%

DROP

3-shot, F1 Score • Self-reported

83.1%

GPQA

0-shot CoT - Diamond AI: ChatGPT-4o Reviewer: Anthropic Claude 3 Opus Для оценки рассуждений модели в решении задач о бриллиантах был применен метод 0-shot Chain of Thought (CoT), когда модель решает задачу без специфических примеров рассуждений. В каждой задаче содержалась только инструкция "Let's think step by step" в конце текста задачи. Это побуждает модель выполнять последовательные рассуждения вместо того, чтобы сразу давать ответ. Используя стандартный подход 0-shot CoT, мы смогли оценить естественную способность модели к рассуждениям без предоставления примеров или подсказок о конкретной структуре, ожидаемой в ответе. Этот подход оказался полезным для анализа того, как модель интерпретирует правила о бриллиантах и применяет их в разных сценариях, что дает представление о ее базовых способностях к рассуждениям и понимании логики. • Self-reported

50.4%

Другие тесты

Специализированные бенчмарки

ARC-C

25-shot • Self-reported

96.4%

MMLU-Pro

0-shot CoT Chain-of-thought (CoT) — это метод, который поощряет модель отображать промежуточные рассуждения перед выдачей ответа. Модель побуждается к поэтапному решению проблемы, что позволяет ей отслеживать сложные многоступенчатые задачи. Традиционная форма подсказки для цепочки рассуждений дополняет исходный запрос инструкцией типа "давай мыслить пошагово", побуждая модель выполнять поэтапный вывод при решении задачи. В отличие от few-shot CoT, где демонстрируются примеры цепочек рассуждений, 0-shot CoT не предоставляет таких примеров. Эффективность 0-shot CoT может существенно отличаться в зависимости от задачи, модели и конкретной формулировки подсказки, побуждающей к пошаговому мышлению. Хотя few-shot CoT часто дает более высокие результаты, 0-shot CoT может быть полезным методом для определенных типов задач, особенно когда демонстрационные примеры недоступны или их трудно сформулировать. • Self-reported

68.5%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

29 февраля 2024 г.

Последнее обновление

19 июля 2025 г.

Claude 3 Opus

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Claude 3.5 Sonnet

Claude 3.5 Sonnet

Claude Opus 4.1

Claude 3.7 Sonnet

Claude 3 Sonnet

Claude 3 Haiku

Claude Sonnet 4

Claude Opus 4