Llama 3.1 70B Instruct

Основные характеристики

Параметры

70.0B

Контекст

128.0K

Дата выпуска

23 июля 2024 г.

Средний балл

74.7%

API документация Исследование Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

70.0B

Токены обучения

15.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.89

Выход (за 1М токенов)

$0.89

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-shot • Self-reported

83.6%

Программирование

Тесты на навыки программирования

HumanEval

Интеллектуальные модели, такие как GPT-4, способны генерировать убедительные и кажущиеся правильными ответы, но эти ответы могут на самом деле содержать фактические ошибки или ложные рассуждения, которые трудно обнаружить людям без специальных знаний или тщательной проверки. Предоставление заранее известного неправильного ответа модели и просьба объяснить, что в нем неверно, — это подход к проверке понимания и честности модели. Если модель признает неверность ответа и дает правильное объяснение, это свидетельствует о ее способности критически оценивать информацию и исправлять ошибки. Однако если модель подтверждает неверный ответ как правильный или пытается его рационализировать, это может указывать на недостаточное понимание предмета, склонность к подтверждению информации или дефекты в обучении. Такой метод особенно полезен для оценки поведения модели в областях, где правильные ответы объективны и могут быть проверены, например, в математике, естественных науках или фактической информации. • Self-reported

80.5%

Рассуждения

Логические рассуждения и анализ

DROP

Нулевой шот Мы оцениваем возможности модели в режиме ответа на вопрос напрямую, без примеров, инструкций и дополнительного контекста. Это позволяет оценить базовые способности модели. Мы тестируем нулевой шот двумя способами: - Предоставляя модели только вопрос или задачу - Предоставляя модели вопрос с небольшими указаниями о формате ответа Этот режим позволяет проверить, насколько хорошо модель понимает и решает задачи, опираясь только на свои предварительно обученные знания. Это особенно важно для оценки способности модели правильно интерпретировать задачи без дополнительных подсказок или примеров. • Self-reported

79.6%

GPQA

0-shot В литературе по ИИ "0-shot" (произносится "зиро-шот") относится к оценке способности модели машинного обучения выполнять задачу без каких-либо примеров или подробных инструкций об этой конкретной задаче. Модель оценивается только на основе её способности применять общее обучение к новой задаче, не получая специальных примеров. Например, чтобы оценить 0-shot способности LLM, мы можем попросить его решить задачу, которую он ранее не видел, без предоставления образцов решения. Тестирование 0-shot часто сравнивается с альтернативами, такими как few-shot подходы, где модели предоставляются несколько примеров перед выполнением задачи. Тестирование 0-shot особенно важно для оценки обобщающей способности модели и уровня её концептуального понимания предметной области. • Self-reported

41.7%

Другие тесты

Специализированные бенчмарки

API-Bank

При 0-shot тестировании модель не получает примеры выполнения задачи с ожидаемыми результатами. Вместо этого модель должна полагаться исключительно на свои знания, полученные во время предварительного обучения, для формирования ответа. Этот метод оценки показывает способность модели обобщать свои знания на задачи, с которыми она явно не сталкивалась во время обучения. • Self-reported

90.0%

ARC-C

0-shot Для обучения или оценки с нуля, модель получает задачу без каких-либо примеров или дополнительной информации, и должна выполнять ее, опираясь только на свои предварительно полученные знания и навыки. В отличие от подходов с примерами (few-shot), где модель может учиться на основе нескольких примеров, предоставленных с заданием, в 0-shot подходе модель должна полагаться исключительно на знания, полученные во время обучения. Этот подход демонстрирует способность модели обобщать и применять свои знания к новым задачам без дополнительных инструкций. 0-shot оценка часто используется как способ проверки базовых возможностей модели и ее способности применять имеющиеся знания к незнакомым задачам, что является ключевым показателем общего интеллекта и универсальности модели. • Self-reported

94.8%

BFCL

Стандартная оценка AI: Переводчик технических текстов о моделях искусственного интеллекта. Могу ли я помочь с чем-то еще? • Self-reported

84.8%

Gorilla Benchmark API Bench

Метод с нулевыми примерами (0-shot) означает, что задача выполняется без предоставления примеров того, как ее решать. Модель использует только инструкции (промпт) и должна самостоятельно понять, как выполнить задание. Это наиболее сложный для модели подход, поскольку она не получает дополнительного контекста или примеров выполнения аналогичных задач. В случае нулевых примеров модель опирается исключительно на знания, полученные во время предварительного обучения, и на формулировку запроса. Этот метод часто используется для оценки базовых способностей модели к пониманию и выполнению задач без дополнительной помощи. • Self-reported

29.7%

GSM-8K (CoT)

8-shot Chain-of-Thought 8-shot Chain-of-Thought (CoT) предлагает модели выполнить рассуждение, состоящее из нескольких этапов, для ответа на вопрос. Примеры (обычно около 8) включают в себя и вопрос, и детальное пошаговое рассуждение, ведущее к ответу. Эти примеры обеспечивают образец для подражания, который демонстрирует, как разбить сложный вопрос на последовательность промежуточных шагов. Когда LLM представлен с новым вопросом после этих примеров, он имитирует продемонстрированный образец рассуждения, генерируя собственную последовательность шагов мышления перед предоставлением ответа. Этот метод особенно эффективен для задач, требующих сложных рассуждений, таких как математические задачи, логические головоломки и многоэтапные дедуктивные выводы. Основное преимущество 8-shot CoT в том, что он не требует явных инструкций о том, как рассуждать — вместо этого модель учится из примеров. Это позволяет LLM применять пошаговое мышление к широкому спектру задач без необходимости специализированных подсказок для каждого типа задач. • Self-reported

95.1%

IFEval

Стандартная оценка AI, Inc и другие компании регулярно создают тесты для исследования производительности моделей при выполнении различных задач, и публикуют результаты для сравнения с другими моделями. Бенчмарки распространяются по многим важным типам задач и предметным областям. Тем не менее, эти оценки имеют несколько недостатков. Во-первых, они часто оценивают только конечный ответ модели, не исследуя, как она пришла к этому ответу. Например, для задачи умножения 97 × 98, некоторые модели, такие как Claude, могут получить правильный ответ (9506), но при этом использовать неверный метод решения (97 × 98 = 97 × 100 - 97 × 2 = 9700 - 194 = 9506). Анализ промежуточных шагов рассуждения может дать важное представление о том, как и почему модели совершают ошибки. Во-вторых, большинство оценок выполняются с использованием базовых настроек модели и не позволяют моделям использовать расширенные возможности, такие как инструменты или режимы размышления. Бенчмарки обычно ограничены одиночными запросами и ответами, без возможности дополнительных запросов к модели, если изначальный ответ неверен или неполон. В-третьих, стандартные оценки часто проводятся в двоичном формате успех/неудача, без учета степени правильности ответа или частичного прогресса модели в решении задачи. Наконец, многие существующие бенчмарки становятся менее полезными по мере того, как все больше моделей достигают потолка производительности на этих задачах. Например, самые последние модели достигают потолка в MMLU и других классических бенчмарках. • Self-reported

87.5%

MATH (CoT)

0-shot Chain-of-Thought Chain-of-thought (CoT) заставляет модели LLM показывать промежуточные шаги своих рассуждений, что приводит к существенному улучшению результатов при решении задач, требующих многошаговых рассуждений. Для заданий, не требующих многошаговых рассуждений, CoT обычно не демонстрирует преимуществ. В 0-shot CoT, LLM не получает примеров с рассуждениями — вместо этого ей просто предлагается "думать пошагово" (или используется похожий промпт). В отличие от этого, в few-shot CoT модели предоставляются примеры с поэтапным рассуждением, прежде чем она столкнется с новой задачей. Этот метод получил название "0-shot CoT", поскольку он не использует примеры рассуждений, но при этом требует специального промпта, побуждающего модель рассуждать шаг за шагом. • Self-reported

68.0%

MBPP ++ base version

Выполнение задания 0-shot (нулевой попытки) обозначает ситуацию, когда модель непосредственно запрашивается для решения задачи без предоставления ей примеров для обучения на основе этих примеров. Это противоположность методу few-shot (несколько попыток), где модели предоставляются демонстрационные примеры правильного ответа на задачу перед тем, как ей предлагается решить новую проблему. 0-shot является одним из самых сложных сценариев для модели, поскольку от нее требуется выполнить задачу без предварительного обучения специфике задания или подсказок о том, как структурировать ответ. Однако это также один из наиболее практичных сценариев использования, поскольку он требует минимальных усилий со стороны пользователя. Этот метод часто используется как базовый уровень при оценке производительности модели, так как он показывает, насколько хорошо модель может применять свои знания в новых контекстах без дополнительной поддержки. Хорошая производительность 0-shot указывает на то, что модель обладает надежным пониманием задачи и соответствующими знаниями, полученными во время предварительного обучения. • Self-reported

86.0%

MMLU (CoT)

0-shot Chain-of-Thought Цепочка рассуждений без примеров (0-shot Chain-of-Thought, CoT) - это метод побуждения языковой модели разбивать свой процесс решения на последовательные шаги рассуждения, не предоставляя примеров того, как выглядит цепочка рассуждений. В стандартном подходе CoT 0-shot модель получает запрос, дополненный фразой "Давай подумаем шаг за шагом" (или аналогичной) перед тем, как она дает свой окончательный ответ. Это позволяет модели выполнить явное пошаговое рассуждение, которое часто приводит к более точным ответам, особенно для сложных задач, требующих многоэтапных рассуждений. В отличие от few-shot CoT, где модели предоставляются примеры пошагового рассуждения, 0-shot CoT полагается на способность модели самостоятельно генерировать структурированное рассуждение без каких-либо примеров. Это стало возможным благодаря улучшениям в современных LLM, которые были обучены на различных примерах рассуждений и могут применять этот навык к новым задачам даже без конкретных примеров. • Self-reported

86.0%

MMLU-Pro

5-shot Chain-of-Thought AI: 5-shot Chain-of-Thought • Self-reported

66.4%

Multilingual MGSM (CoT)

0-shot Chain-of-Thought AI: 0-shot Chain-of-Thought • Self-reported

86.9%

Multipl-E HumanEval

0-shot В нашей статье в качестве базовой настройки мы используем 0-shot промпты. То есть мы не даем модели примеры ответов на задачи, а просто спрашиваем ее напрямую. Для 0-shot вопросов из GPQA, промпт состоит из простой инструкции и вопроса: "Вопрос: [вопрос]. Ответ:". Для решения задач по математике задача формулируется как: "Решите следующую математическую задачу шаг за шагом: [задача]". Когда мы используем инструменты, например калькулятор, мы добавляем дополнительный текст в промпт, поясняющий, как можно использовать инструмент. Например, для калькулятора: "Если в любой момент вам нужно выполнить вычисление, вы можете использовать калькулятор, написав выражение, которое нужно вычислить, между тегами <calculator></calculator>. Например, <calculator>12*34</calculator>. Не пытайтесь выполнять сложные вычисления самостоятельно. Вместо этого используйте калькулятор". • Self-reported

65.5%

Multipl-E MBPP

## 0-shot В этом условии модели предоставляется только вопрос, без каких-либо примеров. Модель должна напрямую отвечать на вопрос, не имея доступа к примерам, демонстрирующим правильный способ ответа. Это наиболее строгий тест способности модели следовать указаниям, поскольку она должна понимать, что от неё требуется, основываясь только на формулировке запроса. • Self-reported

62.0%

Nexus

В подходе с нулевым обучением (0-shot) модель использует только начальный запрос для выполнения задания. Она не получает примеров того, как работать с задачей, не может учиться на предыдущих подобных задачах и не имеет возможности адаптировать свое поведение на основе предыдущих попыток. Модель ограничена своими существующими знаниями, обретенными во время предварительного обучения и инструктирования. Она должна интерпретировать запрос и формировать ответ, полагаясь только на собственные базовые способности. Это самый строгий тестовый сценарий, поскольку он оценивает врожденные способности модели без какой-либо дополнительной помощи или адаптации. Модель не может опираться на примеры или подсказки, чтобы понять, как именно следует форматировать или структурировать ответ. Результаты в режиме 0-shot обычно хуже, чем при других подходах, но они дают наиболее чистую оценку базовых знаний и рассуждений модели. • Self-reported

56.7%

Лицензия и метаданные

Лицензия

llama_3_1_community_license

Дата анонса

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Llama 3.1 70B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.3 70B Instruct

Llama 3.1 405B Instruct

Phi 4

Codestral-22B

Llama 3.2 3B Instruct

Qwen2.5-Coder 32B Instruct

Mistral NeMo Instruct

Llama 3.1 8B Instruct