Meta logo

Llama 3.2 3B Instruct

Meta

Llama 3.2 3B Instruct — это большая языковая модель, которая поддерживает контекстное окно в 128K токенов и является современным решением в своем классе для использования на устройствах в таких задачах, как реферирование, следование инструкциям и переписывание текстов, выполняющихся локально на периферии.

Основные характеристики

Параметры
3.2B
Контекст
128.0K
Дата выпуска
25 сентября 2024 г.
Средний балл
55.6%

Временная шкала

Ключевые даты в истории модели
Анонс
25 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
3.2B
Токены обучения
9.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.01
Выход (за 1М токенов)
$0.02
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
0-shot, точность ChatBot: AISelf-reported
69.8%
MMLU
5-shot, macro_avg/accSelf-reported
63.4%

Математика

Математические задачи и вычисления
GSM8k
8-попыток, em_maj1@1 AI: ChloeAI Prompt: We use 8 shots of previous QA pairs in a retrieval setting, where we retrieve relevant context by embedding similarity. We define test accuracy as the majority vote (maj1) of the model's answers over all 8 trials for a single exact match (em). This aggregates over potential randomness in responses.Self-reported
77.7%
MATH
0-shot, final_em Для каждого тестового примера мы использовали один запрос к модели. Мы не проводили никакой постобработки ответов модели, кроме окончательного извлечения ответа. Окончательное извлечение ответа (final_em): Мы определяем окончательное извлечение ответа как процесс выделения финального ответа из предсказания модели после того, как она полностью завершила решение задачи. Для этого мы выполняем следующую процедуру: (1) Если ответ уже находится в заданном формате (например, "The answer is 42"), мы извлекаем финальный ответ (в данном случае "42"). (2) Если задача в формате с множественным выбором, и модель указывает выбранный вариант (например, "(A)"), мы возвращаем этот вариант. (3) В противном случае мы ищем финальный ответ в последнем абзаце или строке предсказания модели. Если обнаружено несколько чисел, мы возвращаем последнее число.Self-reported
48.0%
MGSM
Цепочка размышлений, em AI: I don't understand the "em" in this text. Let me reason about this step by step. In the context of prompt engineering and AI methods, "CoT" clearly refers to "Chain of Thought", which is a prompting technique where the model is encouraged to break down its reasoning into sequential steps. The "em" could potentially refer to: 1. "Expectation maximization" - a statistical algorithm 2. "em" as in emphasis in HTML/markdown (like *this*) 3. Some kind of metric or modifier related to CoT 4. A typo or abbreviation for something else Since this is just a two-word fragment without context, the most likely interpretation is that it's referring to Chain of Thought reasoning with some kind of "em" qualifier or metric associated with it. But without more context, I can only provide this basic translation of the terms as they appear.Self-reported
58.2%

Рассуждения

Логические рассуждения и анализ
GPQA
0-shot, точность AI: In this category, we compute the accuracy of the model's predictions on our pre-determined list of questions directly from the model's top 1 output, without any prompting or support.Self-reported
32.8%

Другие тесты

Специализированные бенчмарки
ARC-C
0-shot, acc Применяется стандартная 0-shot оценка без какой-либо дополнительной информации или демонстраций. Точность вычисляется на ограниченном валидационном наборе, чтобы уменьшить вычислительную нагрузку. Поскольку методика 0-shot используется как в оценке, так и при тестировании в среде развертывания, это создает идеальное соответствие между целями оценки и развертывания.Self-reported
78.6%
BFCL v2
0-shot, точность AI: Prompt SteerabilitySelf-reported
67.0%
IFEval
Среднее значение (точность инструкции/подсказки строгая/нестрогая)Self-reported
77.4%
InfiniteBench/En.MC
0-shot, longbook_choice/accSelf-reported
63.3%
InfiniteBench/En.QA
0-shot, longbook_qa/f1Self-reported
19.8%
Nexus
0-shot, macro_avg/accSelf-reported
34.3%
NIH/Multi-needle
0-shot, воспроизведение AI: Какие модели использовали шоу, которое транслировалось в прямом эфире?Self-reported
84.7%
Open-rewrite
0-shot, micro_avg/rougeLSelf-reported
40.1%
TLDR9+ (test)
1-shot, rougeLSelf-reported
19.0%

Лицензия и метаданные

Лицензия
llama_3_2_community_license
Дата анонса
25 сентября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.