Llama 3.2 11B Instruct

Name: Llama 3.2 11B Instruct
Author: Meta

Мультимодальная

Основные характеристики

Параметры

10.6B

Контекст

128.0K

Дата выпуска

25 сентября 2024 г.

Средний балл

63.6%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

25 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

22 июня 2026 г.

Технические характеристики

Параметры

10.6B

Токены обучения

Граница знаний

31 декабря 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.18

Выход (за 1М токенов)

$0.18

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Средняя макроточность • Self-reported

73.0%

Математика

Математические задачи и вычисления

MATH

0-shot, CoT Это базовый вариант метода "цепочки рассуждений" (Chain of Thought), применяемый без дополнительных примеров. Мы инструктируем модель мыслить пошагово, но не предоставляем примеры того, как это делать. Мы используем такие инструкции, как "Давай решим эту задачу пошагово" или "Давай подумаем об этом шаг за шагом", чтобы активировать более глубокое рассуждение. Данный метод предлагает модели создать структурированную цепочку рассуждений, ведущую к ответу, вместо того чтобы генерировать ответ напрямую. Этот подход особенно полезен для сложных задач, требующих многоэтапного рассуждения, таких как математические задачи или логические головоломки, где промежуточные шаги могут иметь решающее значение для получения правильного ответа. • Self-reported

51.9%

MGSM

0-shot, CoT Пошаговое рассуждение без примеров. В этом методе мы попросим модель решить задачу, используя пошаговое рассуждение, но не предоставим примеры того, как это должно выглядеть. Обычно это делается с помощью подсказки вроде "Подумай об этом шаг за шагом". Этот метод часто используется в исследованиях крупных языковых моделей, поскольку он прост и эффективен. Хотя модель не получает образца пошагового решения, современные модели обычно способны сгенерировать его самостоятельно. • Self-reported

68.9%

Рассуждения

Логические рассуждения и анализ

GPQA

Ноль выстрелов, CoT Подход ноль-выстрелов с использованием цепочки размышлений (Chain-of-Thought, CoT) — это метод, при котором мы запрашиваем у модели ответ на задачу без предоставления примеров того, как решать подобные задачи. Вместо этого мы просим модель "размышлять шаг за шагом", чтобы она могла структурировать свои мысли и разбить сложную задачу на более простые части. Например, при использовании стандартного подхода мы просто спрашиваем: "Вычислите 17 × 28". При использовании подхода с цепочкой размышлений мы спрашиваем: "Вычислите 17 × 28. Давайте размышлять шаг за шагом." Исследования показали, что простое добавление фразы "Давайте размышлять шаг за шагом" к запросу значительно улучшает способность модели решать задачи, требующие нескольких шагов рассуждения. • Self-reported

32.8%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

Точность теста AI: I'll translate the technical text about AI model analysis. Test accuracy • Self-reported

91.1%

ChartQA

Test, 0-shot CoT relaxed accuracy • Self-reported

83.4%

DocVQA

Тестирование ANLS AI: I'll translate this technical text about model analysis methods according to your requirements. ## Тестовый ANLS ANLS (Average Normalized Levenshtein Similarity) - это метрика оценки для задач извлечения текста из изображений, которая измеряет сходство между предсказанными и истинными текстовыми строками. Формула расчета: 1. Для каждой пары предсказанного и истинного текста вычисляется расстояние Левенштейна 2. Это расстояние нормализуется путем деления на длину более длинной строки 3. Нормализованное расстояние преобразуется в сходство: 1 - нормализованное_расстояние 4. ANLS - это среднее значение этих сходств по всем примерам ANLS используется в задачах OCR, распознавания текста в документах и извлечения информации из визуальных данных. Значения ANLS варьируются от 0 до 1, где 1 означает идеальное соответствие между предсказанным и истинным текстом. • Self-reported

88.4%

MathVista

Точность на тесте AI: 5 points to evaluate AI performance on Machine Learning benchmarks. 1. Accuracy and metric definition. 2. Train-test split: Is there a clear split? Is test data truly unseen? 3. Memorization risk: Could the model have seen test examples during pretraining? 4. Benchmark staleness: How widely known is the benchmark? Has it been used to optimize model performance? 5. Problem difficulty: Is the benchmark challenging enough to differentiate model capabilities? • Self-reported

51.5%

MMMU

Val, 0-shot CoT, средняя микро-точность • Self-reported

50.7%

Другие тесты

Специализированные бенчмарки

MMMU-Pro

Точность тестирования AI: Используемая в машинном обучении мера того, насколько точно модель делает прогнозы на данных, которые она не видела во время обучения. Обычно вычисляется как процент правильных предсказаний от общего числа предсказаний, сделанных на тестовом наборе данных. • Self-reported

33.0%

VQAv2 (test)

Точность AI: 1 Human: 1 AI21 • Self-reported

75.2%

Лицензия и метаданные

Лицензия

llama_3_2_community_license

Дата анонса

25 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Llama 3.2 11B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.2 90B Instruct

Llama 4 Maverick

Llama 4 Scout

Llama 3.1 70B Instruct

DeepSeek VL2

DeepSeek VL2 Small

Llama 3.3 70B Instruct

Llama 3.2 3B Instruct