Claude 3.5 Haiku

Anthropic

Claude 3.5 Haiku — это самая быстрая модель Anthropic, обеспечивающая продвинутые возможности программирования, использования инструментов и рассуждений по доступной цене. Модель превосходно справляется с пользовательскими продуктами, специализированными задачами суб-агентов и генерацией персонализированного опыта на основе больших объемов данных. Модель особенно хорошо подходит для автодополнения кода, интерактивных чат-ботов, извлечения данных и модерации контента в реальном времени.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

22 октября 2024 г.

Средний балл

60.8%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

22 октября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.80

Выход (за 1М токенов)

$4.00

Макс. входящих токенов

200.0K

Макс. исходящих токенов

200.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

Проверка без примеров • Self-reported

88.1%

SWE-Bench Verified

standard • Self-reported

40.6%

Математика

Математические задачи и вычисления

MATH

0-shot CoT Zero-shot Chain-of-Thought (CoT) — это метод улучшения рассуждений LLM через инструкции "подумай шаг за шагом", без необходимости демонстрации примеров. Этот подход, представленный в работе Kojima et al. (2022), предлагает простой способ стимулировать пошаговые рассуждения в моделях, что часто приводит к значительному улучшению производительности в задачах, требующих сложных рассуждений. При использовании 0-shot CoT инструкция направляет модель на выработку промежуточных шагов рассуждений, прежде чем прийти к окончательному ответу. Показано, что такой подход особенно эффективен для больших языковых моделей. Реализация 0-shot CoT проста: достаточно добавить фразу "давай подумаем шаг за шагом" (или аналогичную) к исходному запросу. Это побуждает модель формулировать свои мысли последовательно, что помогает в решении сложных задач, включая арифметические, символьные и логические задачи. В отличие от few-shot CoT, который требует предоставления примеров с пошаговыми рассуждениями, 0-shot CoT не требует примеров и может применяться без дополнительного обучения модели. • Self-reported

69.4%

MGSM

0-shot CoT Метод "0-shot CoT" (размышление с нулевым примером) — это подход к решению задач моделями искусственного интеллекта, при котором модель предоставляет пошаговое рассуждение без предварительных примеров решения аналогичных задач. В отличие от "few-shot CoT", где модели показывают несколько примеров с пошаговыми решениями, в 0-shot подходе модель должна самостоятельно выработать стратегию рассуждения. Обычно это достигается добавлением простой подсказки "Давай решим это шаг за шагом" (или "Let's think step by step" в англоязычных запросах) после задания. Этот метод особенно эффективен для современных LLM, так как активирует их способность к структурированному мышлению без необходимости в дополнительных примерах. Исследования показали, что такой простой прием значительно улучшает производительность моделей при решении сложных задач, требующих логического мышления, арифметических вычислений или многоэтапных рассуждений. Основные преимущества 0-shot CoT: • Не требует специальной подготовки примеров • Экономит место в контексте запроса • Позволяет модели применять собственные навыки рассуждения • Работает на широком спектре задач Данный подход стал стандартным приемом при работе с моделями GPT, Claude и другими современными LLM для улучшения качества их ответов при решении сложных задач. • Self-reported

85.6%

Рассуждения

Логические рассуждения и анализ

DROP

3-shot F1-мера F1-мера обычно используется для измерения точности бинарной классификации. Она рассчитывается как гармоническое среднее точности (доля правильных положительных прогнозов среди всех положительных прогнозов) и полноты (доля правильных положительных прогнозов среди всех фактических положительных экземпляров). В контексте LLM мы адаптируем эту метрику для задач с открытым ответом, где система должна генерировать фактическую информацию. Мы рассчитываем F1-меру между тем, что должно было быть сгенерировано (ожидаемые факты), и тем, что фактически было сгенерировано (сгенерированные факты). Метрика "3-shot F1-мера" означает, что модели показывают 3 примера вопроса/ответа перед тестированием, чтобы она могла узнать формат выполнения задачи. • Self-reported

83.1%

GPQA

0-shot CoT Chain-of-thought — это метод побуждения языковых моделей к "размышлению вслух" при решении сложных задач, который был впервые представлен в работе Wei et al. (2022). В стандартном подходе 0-shot CoT модель явно указывает решать задачу поэтапно, часто с использованием фразы "Давай решим это шаг за шагом". По сравнению с прямым запросом, 0-shot CoT даёт моделям пространство для выполнения промежуточных вычислений и рассуждений перед предоставлением окончательного ответа. Это особенно полезно для математических задач, задач здравого смысла и логических головоломок, где разбиение проблемы на отдельные шаги может снизить вероятность ошибок. Примеры 0-shot CoT: • "Давай решим это шаг за шагом." • "Рассмотрим эту проблему поэтапно." • "Для решения этой задачи я буду мыслить последовательно." 0-shot CoT требует минимальных затрат на внедрение, поскольку не требует предоставления примеров, и часто значительно улучшает производительность по сравнению с прямыми запросами для большинства моделей при решении задач, требующих рассуждений. • Self-reported

41.6%

Другие тесты

Специализированные бенчмарки

MMLU-Pro

# 0-shot CoT Метод 0-shot CoT ("цепочка размышлений" без примеров) — это способ побудить языковую модель рассуждать пошагово, не показывая ей примеров того, как должно выглядеть такое рассуждение. Он был представлен в статье Kojima et al. (2022) и основан на более раннем исследовании Chain-of-Thought (Wei et al., 2022). ## Метод Чтобы использовать 0-shot CoT, просто добавьте фразы, побуждающие к размышлению, такие как "Давайте рассуждать шаг за шагом" в конце запроса. Это побуждает модель выполнить пошаговое рассуждение, прежде чем дать окончательный ответ. ## Как это работает Подход 0-shot CoT позволяет моделям: 1. Разбивать сложные задачи на более простые подзадачи 2. Отслеживать промежуточные результаты 3. Обнаруживать и исправлять ошибки в рассуждениях 4. Структурировать решение логически ## Пример использования Для задачи: "Если у Джона было 5 яблок, он съел 2, а затем купил еще 3, сколько яблок у него сейчас?" **Запрос с 0-shot CoT**: "Если у Джона было 5 яблок, он съел 2, а затем купил еще 3, сколько яблок у него сейчас? Давайте рассуждать шаг за шагом." **Ответ модели**: "Начнем с того, что у Джона 5 яблок. Джон съел 2 яблока, поэтому у него осталось 5 - 2 = 3 яблока. Затем Джон купил еще 3 яблока, поэтому теперь у него 3 + 3 = 6 яблок. Ответ: у Джона сейчас 6 яблок." ## Когда это полезно 0-shot CoT особенно полезен для: - Арифметических задач - Логических головоломок - Задач на рассуждение - Многошаговых проблем ## Ограничения - Не всегда генерирует полезную цепочку рассуждений - Качество рассуждений зависит от базовых способностей модели - Может генерировать правдоподобные, но неверные шаги рассуждения • Self-reported

65.0%

TAU-bench Airline

Стандартный AI: Я считаю, что существует простое решение: 6 ч разницы во времени означает, что когда в Москве 12:00, в Нью-Йорке 6:00. Значит, если встреча начинается в 9:00 в Нью-Йорке, это будет 15:00 в Москве. Встреча заканчивается в 10:30 в Нью-Йорке, что соответствует 16:30 в Москве. • Self-reported

22.8%

TAU-bench Retail

Стандартный • Self-reported

51.0%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

22 октября 2024 г.

Последнее обновление

19 июля 2025 г.

Claude 3.5 Haiku

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 1.0 Pro

o3-mini

GPT-3.5 Turbo

Claude 3.7 Sonnet

Claude 3 Sonnet

Claude 3.5 Sonnet

Claude 3 Haiku

Claude Sonnet 4