Llama 3.2 3B Instruct
Llama 3.2 3B Instruct — это большая языковая модель, которая поддерживает контекстное окно в 128K токенов и является современным решением в своем классе для использования на устройствах в таких задачах, как реферирование, следование инструкциям и переписывание текстов, выполняющихся локально на периферии.
Основные характеристики
Параметры
3.2B
Контекст
128.0K
Дата выпуска
25 сентября 2024 г.
Средний балл
55.6%
Временная шкала
Ключевые даты в истории модели
Анонс
25 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
3.2B
Токены обучения
9.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.01
Выход (за 1М токенов)
$0.02
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
0-shot, точность
ChatBot: AI • Self-reported
MMLU
5-shot, macro_avg/acc • Self-reported
Математика
Математические задачи и вычисления
GSM8k
8-попыток, em_maj1@1
AI: ChloeAI
Prompt: We use 8 shots of previous QA pairs in a retrieval setting, where we retrieve relevant context by embedding similarity. We define test accuracy as the majority vote (maj1) of the model's answers over all 8 trials for a single exact match (em). This aggregates over potential randomness in responses. • Self-reported
MATH
0-shot, final_em
Для каждого тестового примера мы использовали один запрос к модели. Мы не проводили никакой постобработки ответов модели, кроме окончательного извлечения ответа.
Окончательное извлечение ответа (final_em): Мы определяем окончательное извлечение ответа как процесс выделения финального ответа из предсказания модели после того, как она полностью завершила решение задачи. Для этого мы выполняем следующую процедуру: (1) Если ответ уже находится в заданном формате (например, "The answer is 42"), мы извлекаем финальный ответ (в данном случае "42"). (2) Если задача в формате с множественным выбором, и модель указывает выбранный вариант (например, "(A)"), мы возвращаем этот вариант. (3) В противном случае мы ищем финальный ответ в последнем абзаце или строке предсказания модели. Если обнаружено несколько чисел, мы возвращаем последнее число. • Self-reported
MGSM
Цепочка размышлений, em
AI: I don't understand the "em" in this text. Let me reason about this step by step.
In the context of prompt engineering and AI methods, "CoT" clearly refers to "Chain of Thought", which is a prompting technique where the model is encouraged to break down its reasoning into sequential steps.
The "em" could potentially refer to:
1. "Expectation maximization" - a statistical algorithm
2. "em" as in emphasis in HTML/markdown (like *this*)
3. Some kind of metric or modifier related to CoT
4. A typo or abbreviation for something else
Since this is just a two-word fragment without context, the most likely interpretation is that it's referring to Chain of Thought reasoning with some kind of "em" qualifier or metric associated with it.
But without more context, I can only provide this basic translation of the terms as they appear. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
0-shot, точность
AI: In this category, we compute the accuracy of the model's predictions on our pre-determined list of questions directly from the model's top 1 output, without any prompting or support. • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
0-shot, acc
Применяется стандартная 0-shot оценка без какой-либо дополнительной информации или демонстраций. Точность вычисляется на ограниченном валидационном наборе, чтобы уменьшить вычислительную нагрузку. Поскольку методика 0-shot используется как в оценке, так и при тестировании в среде развертывания, это создает идеальное соответствие между целями оценки и развертывания. • Self-reported
BFCL v2
0-shot, точность
AI: Prompt Steerability • Self-reported
IFEval
Среднее значение (точность инструкции/подсказки строгая/нестрогая) • Self-reported
InfiniteBench/En.MC
0-shot, longbook_choice/acc • Self-reported
InfiniteBench/En.QA
0-shot, longbook_qa/f1 • Self-reported
Nexus
0-shot, macro_avg/acc • Self-reported
NIH/Multi-needle
0-shot, воспроизведение
AI: Какие модели использовали шоу, которое транслировалось в прямом эфире? • Self-reported
Open-rewrite
0-shot, micro_avg/rougeL • Self-reported
TLDR9+ (test)
1-shot, rougeL • Self-reported
Лицензия и метаданные
Лицензия
llama_3_2_community_license
Дата анонса
25 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиLlama 3.1 8B Instruct
Meta
8.0B
Лучший скор:0.8 (ARC)
Релиз:июль 2024 г.
Цена:$0.20/1M токенов
Phi-3.5-mini-instruct
Microsoft
3.8B
Лучший скор:0.8 (ARC)
Релиз:авг. 2024 г.
Цена:$0.10/1M токенов
Ministral 8B Instruct
Mistral AI
8.0B
Лучший скор:0.7 (ARC)
Релиз:окт. 2024 г.
Цена:$0.10/1M токенов
Qwen2.5 7B Instruct
Alibaba
7.6B
Лучший скор:0.8 (HumanEval)
Релиз:сент. 2024 г.
Цена:$0.30/1M токенов
Llama 3.3 70B Instruct
Meta
70.0B
Лучший скор:0.9 (HumanEval)
Релиз:дек. 2024 г.
Цена:$0.88/1M токенов
Llama 3.1 70B Instruct
Meta
70.0B
Лучший скор:0.9 (ARC)
Релиз:июль 2024 г.
Цена:$0.89/1M токенов
Llama 3.1 405B Instruct
Meta
405.0B
Лучший скор:1.0 (ARC)
Релиз:июль 2024 г.
Цена:$3.50/1M токенов
Llama 3.2 11B Instruct
Meta
MM10.6B
Лучший скор:0.7 (MMLU)
Релиз:сент. 2024 г.
Цена:$0.18/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.