Llama 3.2 3B Instruct

Основные характеристики

Параметры

3.2B

Контекст

128.0K

Дата выпуска

25 сентября 2024 г.

Средний балл

55.6%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

25 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

3.2B

Токены обучения

9.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.01

Выход (за 1М токенов)

$0.02

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

0-shot, точность ChatBot: AI • Self-reported

69.8%

MMLU

5-shot, macro_avg/acc • Self-reported

63.4%

Математика

Математические задачи и вычисления

GSM8k

8-попыток, em_maj1@1 AI: ChloeAI Prompt: We use 8 shots of previous QA pairs in a retrieval setting, where we retrieve relevant context by embedding similarity. We define test accuracy as the majority vote (maj1) of the model's answers over all 8 trials for a single exact match (em). This aggregates over potential randomness in responses. • Self-reported

77.7%

MATH

0-shot, final_em Для каждого тестового примера мы использовали один запрос к модели. Мы не проводили никакой постобработки ответов модели, кроме окончательного извлечения ответа. Окончательное извлечение ответа (final_em): Мы определяем окончательное извлечение ответа как процесс выделения финального ответа из предсказания модели после того, как она полностью завершила решение задачи. Для этого мы выполняем следующую процедуру: (1) Если ответ уже находится в заданном формате (например, "The answer is 42"), мы извлекаем финальный ответ (в данном случае "42"). (2) Если задача в формате с множественным выбором, и модель указывает выбранный вариант (например, "(A)"), мы возвращаем этот вариант. (3) В противном случае мы ищем финальный ответ в последнем абзаце или строке предсказания модели. Если обнаружено несколько чисел, мы возвращаем последнее число. • Self-reported

48.0%

MGSM

Цепочка размышлений, em AI: I don't understand the "em" in this text. Let me reason about this step by step. In the context of prompt engineering and AI methods, "CoT" clearly refers to "Chain of Thought", which is a prompting technique where the model is encouraged to break down its reasoning into sequential steps. The "em" could potentially refer to: 1. "Expectation maximization" - a statistical algorithm 2. "em" as in emphasis in HTML/markdown (like *this*) 3. Some kind of metric or modifier related to CoT 4. A typo or abbreviation for something else Since this is just a two-word fragment without context, the most likely interpretation is that it's referring to Chain of Thought reasoning with some kind of "em" qualifier or metric associated with it. But without more context, I can only provide this basic translation of the terms as they appear. • Self-reported

58.2%

Рассуждения

Логические рассуждения и анализ

GPQA

0-shot, точность AI: In this category, we compute the accuracy of the model's predictions on our pre-determined list of questions directly from the model's top 1 output, without any prompting or support. • Self-reported

32.8%

Другие тесты

Специализированные бенчмарки

ARC-C

0-shot, acc Применяется стандартная 0-shot оценка без какой-либо дополнительной информации или демонстраций. Точность вычисляется на ограниченном валидационном наборе, чтобы уменьшить вычислительную нагрузку. Поскольку методика 0-shot используется как в оценке, так и при тестировании в среде развертывания, это создает идеальное соответствие между целями оценки и развертывания. • Self-reported

78.6%

BFCL v2

0-shot, точность AI: Prompt Steerability • Self-reported

67.0%

IFEval

Среднее значение (точность инструкции/подсказки строгая/нестрогая) • Self-reported

77.4%

InfiniteBench/En.MC

0-shot, longbook_choice/acc • Self-reported

63.3%

InfiniteBench/En.QA

0-shot, longbook_qa/f1 • Self-reported

19.8%

Nexus

0-shot, macro_avg/acc • Self-reported

34.3%

NIH/Multi-needle

0-shot, воспроизведение AI: Какие модели использовали шоу, которое транслировалось в прямом эфире? • Self-reported

84.7%

Open-rewrite

0-shot, micro_avg/rougeL • Self-reported

40.1%

TLDR9+ (test)

1-shot, rougeL • Self-reported

19.0%

Лицензия и метаданные

Лицензия

llama_3_2_community_license

Дата анонса

25 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Llama 3.2 3B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.1 8B Instruct

Phi-3.5-mini-instruct

Ministral 8B Instruct

Qwen2.5 7B Instruct

Llama 3.3 70B Instruct

Llama 3.1 70B Instruct

Llama 3.1 405B Instruct

Llama 3.2 11B Instruct