Claude 3 Haiku

Мультимодальная

Anthropic

Claude 3 Haiku — самая быстрая и компактная модель в семействе Claude 3, разработанная для мгновенного отклика. Она превосходно справляется с ответами на простые запросы и требования с непревзойденной скоростью, что делает её идеальной для бесшовных AI-взаимодействий, имитирующих человеческое общение.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

13 марта 2024 г.

Средний балл

71.5%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

13 марта 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.25

Выход (за 1М токенов)

$1.25

Макс. входящих токенов

200.0K

Макс. исходящих токенов

200.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

10-проб AI: 10-shot • Self-reported

85.9%

MMLU

5-shot • Self-reported

75.2%

Программирование

Тесты на навыки программирования

HumanEval

0-shot Режим "0-shot" относится к оценке модели без предоставления примеров того, как выполнять задачу. Модели предоставляется только инструкция или запрос, и она должна генерировать ответ без обучающих примеров. Этот метод оценки показывает способность модели выполнять задачу, полагаясь исключительно на знания, полученные во время предварительного обучения, и без дополнительного контекста или примеров выполнения конкретной задачи. 0-shot тестирование особенно важно для измерения общих возможностей модели и её способности следовать инструкциям без дополнительных подсказок. Это самый строгий тип оценки, поскольку он требует от модели переноса существующих знаний на новую задачу без специфических примеров. • Self-reported

75.9%

Математика

Математические задачи и вычисления

GSM8k

0-shot CoT Метод "0-shot Chain of Thought" (0-shot CoT) — это подход, при котором языковую модель просят "подумать пошагово" при решении задачи, не предоставляя примеров таких пошаговых рассуждений. Самый простой способ реализации 0-shot CoT — добавить фразу "давай подумаем пошагово" к исходному запросу. Это побуждает модель генерировать цепочку логических рассуждений перед тем, как дать окончательный ответ. В отличие от немодифицированных запросов, где модель может сразу выдать ответ, 0-shot CoT стимулирует модель разбить сложную проблему на более мелкие, управляемые части, что часто приводит к более точным результатам, особенно в сложных задачах, таких как математические вычисления или логические головоломки. Главное преимущество 0-shot CoT в том, что он не требует разработки специфичных для задачи примеров с пошаговыми рассуждениями, что делает этот метод гораздо более доступным по сравнению с few-shot CoT. • Self-reported

88.9%

MATH

0-shot CoT Цепочка размышлений без предварительного обучения Данный метод подразумевает побуждение модели пошагово объяснять своё рассуждение без предоставления примеров такого рассуждения. Несмотря на отсутствие примеров, просьба к модели "подумать пошагово" перед предоставлением ответа часто значительно улучшает производительность. Этот подход особенно полезен в ситуациях, когда демонстрация подробного примера непрактична или когда задачи слишком разнообразны, чтобы охватить их примерами. Запрос на пошаговое рассуждение побуждает модель замедлиться и структурировать свой ответ, что часто приводит к более точным результатам. Как и другие методы рассуждения, 0-shot CoT существенно эффективнее для более крупных моделей, поскольку они лучше понимают инструкции и могут генерировать более сложные рассуждения. • Self-reported

38.9%

MGSM

Когда модель знает все необходимые факты о задаче, но что-то мешает ей просто вывести правильный ответ, мы вызываем ошибку вывода. Чтобы оценить способность модели выводить правильные ответы из имеющейся у нее информации, мы используем задачи, которые требуют многоступенчатых логических рассуждений о фактах, содержащихся в запросе. Примеры включают задачи на дедукцию с четкими правилами, головоломки с явными ограничениями и проблемы, которые можно решить пошаговым анализом. Например, мы можем дать модели подсказку: "Билл старше Марии. Хосе старше Билла. Кто самый старший?" Вся информация, необходимая для ответа, содержится в подсказке. Если модель дает неправильный ответ, это свидетельствует о том, что она не смогла корректно выполнить логический вывод. Эта категория ошибок отличается от ошибок знаний, где модель могла бы ответить правильно при наличии определенной информации. Напротив, при ошибках вывода модель уже имеет всю необходимую информацию, но что-то в ее дизайне или процессе генерации ответа мешает корректному выводу. • Self-reported

75.1%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

3-shot CoT Рассуждение по цепочке (Chain-of-Thought, CoT) с использованием трех примеров является методом улучшения рассуждений модели LLM через демонстрацию примеров пошагового решения проблем. Это расширение стандартного промптинга с несколькими примерами, но с важным отличием: каждый пример не просто показывает вход-выход, но и демонстрирует промежуточные шаги рассуждения. В 3-shot CoT (рассуждение по цепочке с тремя примерами) мы предоставляем модели три полных примера рассуждения, где для каждого примера показано: 1. Задача/вопрос 2. Пошаговое рассуждение, детализирующее ход мыслей 3. Итоговый ответ Этот метод особенно эффективен для математических задач, логических головоломок и задач, требующих последовательных рассуждений. Предоставление трех примеров обычно обеспечивает достаточный контекст, чтобы модель усвоила шаблон рассуждения, при этом не перегружая контекстное окно. Исследования показывают, что модели, обученные с помощью CoT, часто демонстрируют значительное улучшение в решении сложных задач по сравнению с обычным промптингом, поскольку они учатся разбивать проблемы на более мелкие, управляемые шаги и рассуждать последовательно. • Self-reported

73.7%

DROP

3-shot, F1 score Метрика F1 оценивает производительность модели для решения математических задач, требующих нескольких шагов рассуждения. В задаче с 3-shot настройкой модели предоставляются три примера решений перед тем, как она приступает к новой задаче. F1-мера представляет собой гармоническое среднее между точностью (precision) и полнотой (recall). Она особенно полезна для несбалансированных наборов данных, где важно учитывать как ложноположительные, так и ложноотрицательные результаты. В контексте математических задач F1 score измеряет, насколько хорошо модель может воспроизводить правильные шаги рассуждения и приходить к верным ответам, имея возможность изучить небольшое количество примеров из обучающей выборки. • Self-reported

78.4%

GPQA

0-shot CoT Модель выводит промежуточные шаги рассуждения для получения ответа, не имея специальных инструкций в промпте. Это происходит, когда модель начинает решать задачу и в ходе решения записывает ход своих мыслей. Метод отличается от обычного 0-shot тем, что модель не просто сразу выдает ответ, а детально фиксирует свой путь решения. Кроме того, это отличается от chain-of-thought (цепочки рассуждений), где в промпте есть явное указание "давай подумаем шаг за шагом". В 0-shot CoT модель самостоятельно решает показать промежуточные шаги без специального запроса. Пример: если задан вопрос о решении математической задачи, модель не только дает ответ, но и показывает этапы решения, хотя в промпте не было просьбы объяснить ход решения. • Self-reported

33.3%

Другие тесты

Специализированные бенчмарки

ARC-C

25-shot Метод 25-shot (25 примеров) — это техника, при которой мы предоставляем модели ИИ 25 примеров предыдущих ответов или решений задач перед тем, как модель попытается решить новую задачу. Этот подход особенно полезен для настройки модели на определенный формат или стиль ответа и обычно дает лучшие результаты, чем методы с меньшим количеством примеров, такие как 0-shot (без примеров) или few-shot (несколько примеров). В нашем исследовании мы использовали 25-shot для улучшения производительности моделей на сложных математических задачах из соревнований уровня AIME и FrontierMath. Показывая модели 25 полностью решенных задач с подробными выкладками, мы значительно повысили способность модели воспроизводить эффективные методы решения и следовать определенной структуре рассуждений. Преимущество метода 25-shot заключается в том, что он дает модели достаточно контекста для выявления закономерностей в решениях, не перегружая при этом контекстное окно современных LLM. Однако этот метод требует тщательного подбора примеров, которые должны быть репрезентативными для целевых задач. • Self-reported

89.2%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

13 марта 2024 г.

Последнее обновление

19 июля 2025 г.

Claude 3 Haiku

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Claude 3.7 Sonnet

Claude 3 Sonnet

Claude 3.5 Sonnet

Claude Sonnet 4

Claude Opus 4

Claude 3.5 Sonnet

Claude 3 Opus

Claude Opus 4.1