Anthropic logo

Claude 3.5 Haiku

Anthropic

Claude 3.5 Haiku — это самая быстрая модель Anthropic, обеспечивающая продвинутые возможности программирования, использования инструментов и рассуждений по доступной цене. Модель превосходно справляется с пользовательскими продуктами, специализированными задачами суб-агентов и генерацией персонализированного опыта на основе больших объемов данных. Модель особенно хорошо подходит для автодополнения кода, интерактивных чат-ботов, извлечения данных и модерации контента в реальном времени.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
22 октября 2024 г.
Средний балл
60.8%

Временная шкала

Ключевые даты в истории модели
Анонс
22 октября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.80
Выход (за 1М токенов)
$4.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
200.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
HumanEval
Проверка без примеровSelf-reported
88.1%
SWE-Bench Verified
standardSelf-reported
40.6%

Математика

Математические задачи и вычисления
MATH
0-shot CoT Zero-shot Chain-of-Thought (CoT) — это метод улучшения рассуждений LLM через инструкции "подумай шаг за шагом", без необходимости демонстрации примеров. Этот подход, представленный в работе Kojima et al. (2022), предлагает простой способ стимулировать пошаговые рассуждения в моделях, что часто приводит к значительному улучшению производительности в задачах, требующих сложных рассуждений. При использовании 0-shot CoT инструкция направляет модель на выработку промежуточных шагов рассуждений, прежде чем прийти к окончательному ответу. Показано, что такой подход особенно эффективен для больших языковых моделей. Реализация 0-shot CoT проста: достаточно добавить фразу "давай подумаем шаг за шагом" (или аналогичную) к исходному запросу. Это побуждает модель формулировать свои мысли последовательно, что помогает в решении сложных задач, включая арифметические, символьные и логические задачи. В отличие от few-shot CoT, который требует предоставления примеров с пошаговыми рассуждениями, 0-shot CoT не требует примеров и может применяться без дополнительного обучения модели.Self-reported
69.4%
MGSM
0-shot CoT Метод "0-shot CoT" (размышление с нулевым примером) — это подход к решению задач моделями искусственного интеллекта, при котором модель предоставляет пошаговое рассуждение без предварительных примеров решения аналогичных задач. В отличие от "few-shot CoT", где модели показывают несколько примеров с пошаговыми решениями, в 0-shot подходе модель должна самостоятельно выработать стратегию рассуждения. Обычно это достигается добавлением простой подсказки "Давай решим это шаг за шагом" (или "Let's think step by step" в англоязычных запросах) после задания. Этот метод особенно эффективен для современных LLM, так как активирует их способность к структурированному мышлению без необходимости в дополнительных примерах. Исследования показали, что такой простой прием значительно улучшает производительность моделей при решении сложных задач, требующих логического мышления, арифметических вычислений или многоэтапных рассуждений. Основные преимущества 0-shot CoT: • Не требует специальной подготовки примеров • Экономит место в контексте запроса • Позволяет модели применять собственные навыки рассуждения • Работает на широком спектре задач Данный подход стал стандартным приемом при работе с моделями GPT, Claude и другими современными LLM для улучшения качества их ответов при решении сложных задач.Self-reported
85.6%

Рассуждения

Логические рассуждения и анализ
DROP
3-shot F1-мера F1-мера обычно используется для измерения точности бинарной классификации. Она рассчитывается как гармоническое среднее точности (доля правильных положительных прогнозов среди всех положительных прогнозов) и полноты (доля правильных положительных прогнозов среди всех фактических положительных экземпляров). В контексте LLM мы адаптируем эту метрику для задач с открытым ответом, где система должна генерировать фактическую информацию. Мы рассчитываем F1-меру между тем, что должно было быть сгенерировано (ожидаемые факты), и тем, что фактически было сгенерировано (сгенерированные факты). Метрика "3-shot F1-мера" означает, что модели показывают 3 примера вопроса/ответа перед тестированием, чтобы она могла узнать формат выполнения задачи.Self-reported
83.1%
GPQA
0-shot CoT Chain-of-thought — это метод побуждения языковых моделей к "размышлению вслух" при решении сложных задач, который был впервые представлен в работе Wei et al. (2022). В стандартном подходе 0-shot CoT модель явно указывает решать задачу поэтапно, часто с использованием фразы "Давай решим это шаг за шагом". По сравнению с прямым запросом, 0-shot CoT даёт моделям пространство для выполнения промежуточных вычислений и рассуждений перед предоставлением окончательного ответа. Это особенно полезно для математических задач, задач здравого смысла и логических головоломок, где разбиение проблемы на отдельные шаги может снизить вероятность ошибок. Примеры 0-shot CoT: • "Давай решим это шаг за шагом." • "Рассмотрим эту проблему поэтапно." • "Для решения этой задачи я буду мыслить последовательно." 0-shot CoT требует минимальных затрат на внедрение, поскольку не требует предоставления примеров, и часто значительно улучшает производительность по сравнению с прямыми запросами для большинства моделей при решении задач, требующих рассуждений.Self-reported
41.6%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
# 0-shot CoT Метод 0-shot CoT ("цепочка размышлений" без примеров) — это способ побудить языковую модель рассуждать пошагово, не показывая ей примеров того, как должно выглядеть такое рассуждение. Он был представлен в статье Kojima et al. (2022) и основан на более раннем исследовании Chain-of-Thought (Wei et al., 2022). ## Метод Чтобы использовать 0-shot CoT, просто добавьте фразы, побуждающие к размышлению, такие как "Давайте рассуждать шаг за шагом" в конце запроса. Это побуждает модель выполнить пошаговое рассуждение, прежде чем дать окончательный ответ. ## Как это работает Подход 0-shot CoT позволяет моделям: 1. Разбивать сложные задачи на более простые подзадачи 2. Отслеживать промежуточные результаты 3. Обнаруживать и исправлять ошибки в рассуждениях 4. Структурировать решение логически ## Пример использования Для задачи: "Если у Джона было 5 яблок, он съел 2, а затем купил еще 3, сколько яблок у него сейчас?" **Запрос с 0-shot CoT**: "Если у Джона было 5 яблок, он съел 2, а затем купил еще 3, сколько яблок у него сейчас? Давайте рассуждать шаг за шагом." **Ответ модели**: "Начнем с того, что у Джона 5 яблок. Джон съел 2 яблока, поэтому у него осталось 5 - 2 = 3 яблока. Затем Джон купил еще 3 яблока, поэтому теперь у него 3 + 3 = 6 яблок. Ответ: у Джона сейчас 6 яблок." ## Когда это полезно 0-shot CoT особенно полезен для: - Арифметических задач - Логических головоломок - Задач на рассуждение - Многошаговых проблем ## Ограничения - Не всегда генерирует полезную цепочку рассуждений - Качество рассуждений зависит от базовых способностей модели - Может генерировать правдоподобные, но неверные шаги рассужденияSelf-reported
65.0%
TAU-bench Airline
Стандартный AI: Я считаю, что существует простое решение: 6 ч разницы во времени означает, что когда в Москве 12:00, в Нью-Йорке 6:00. Значит, если встреча начинается в 9:00 в Нью-Йорке, это будет 15:00 в Москве. Встреча заканчивается в 10:30 в Нью-Йорке, что соответствует 16:30 в Москве.Self-reported
22.8%
TAU-bench Retail
СтандартныйSelf-reported
51.0%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
22 октября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.