Llama 3.2 11B Instruct
МультимодальнаяLlama 3.2 11B Vision Instruct — это настроенная на инструкции мультимодальная большая языковая модель, оптимизированная для визуального распознавания, анализа изображений, создания описаний и ответов на общие вопросы об изображениях. Модель принимает текст и изображения на входе и генерирует текст на выходе.
Основные характеристики
Параметры
10.6B
Контекст
128.0K
Дата выпуска
25 сентября 2024 г.
Средний балл
63.6%
Временная шкала
Ключевые даты в истории модели
Анонс
25 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
10.6B
Токены обучения
-
Граница знаний
31 декабря 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.18
Выход (за 1М токенов)
$0.18
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Средняя макроточность • Self-reported
Математика
Математические задачи и вычисления
MATH
0-shot, CoT
Это базовый вариант метода "цепочки рассуждений" (Chain of Thought), применяемый без дополнительных примеров. Мы инструктируем модель мыслить пошагово, но не предоставляем примеры того, как это делать.
Мы используем такие инструкции, как "Давай решим эту задачу пошагово" или "Давай подумаем об этом шаг за шагом", чтобы активировать более глубокое рассуждение. Данный метод предлагает модели создать структурированную цепочку рассуждений, ведущую к ответу, вместо того чтобы генерировать ответ напрямую.
Этот подход особенно полезен для сложных задач, требующих многоэтапного рассуждения, таких как математические задачи или логические головоломки, где промежуточные шаги могут иметь решающее значение для получения правильного ответа. • Self-reported
MGSM
0-shot, CoT
Пошаговое рассуждение без примеров. В этом методе мы попросим модель решить задачу, используя пошаговое рассуждение, но не предоставим примеры того, как это должно выглядеть. Обычно это делается с помощью подсказки вроде "Подумай об этом шаг за шагом".
Этот метод часто используется в исследованиях крупных языковых моделей, поскольку он прост и эффективен. Хотя модель не получает образца пошагового решения, современные модели обычно способны сгенерировать его самостоятельно. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Ноль выстрелов, CoT
Подход ноль-выстрелов с использованием цепочки размышлений (Chain-of-Thought, CoT) — это метод, при котором мы запрашиваем у модели ответ на задачу без предоставления примеров того, как решать подобные задачи. Вместо этого мы просим модель "размышлять шаг за шагом", чтобы она могла структурировать свои мысли и разбить сложную задачу на более простые части.
Например, при использовании стандартного подхода мы просто спрашиваем: "Вычислите 17 × 28". При использовании подхода с цепочкой размышлений мы спрашиваем: "Вычислите 17 × 28. Давайте размышлять шаг за шагом."
Исследования показали, что простое добавление фразы "Давайте размышлять шаг за шагом" к запросу значительно улучшает способность модели решать задачи, требующие нескольких шагов рассуждения. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
AI2D
Точность теста
AI: I'll translate the technical text about AI model analysis.
Test accuracy • Self-reported
ChartQA
Test, 0-shot CoT relaxed accuracy • Self-reported
DocVQA
Тестирование ANLS
AI: I'll translate this technical text about model analysis methods according to your requirements.
## Тестовый ANLS
ANLS (Average Normalized Levenshtein Similarity) - это метрика оценки для задач извлечения текста из изображений, которая измеряет сходство между предсказанными и истинными текстовыми строками.
Формула расчета:
1. Для каждой пары предсказанного и истинного текста вычисляется расстояние Левенштейна
2. Это расстояние нормализуется путем деления на длину более длинной строки
3. Нормализованное расстояние преобразуется в сходство: 1 - нормализованное_расстояние
4. ANLS - это среднее значение этих сходств по всем примерам
ANLS используется в задачах OCR, распознавания текста в документах и извлечения информации из визуальных данных. Значения ANLS варьируются от 0 до 1, где 1 означает идеальное соответствие между предсказанным и истинным текстом. • Self-reported
MathVista
Точность на тесте
AI: 5 points to evaluate AI performance on Machine Learning benchmarks.
1. Accuracy and metric definition.
2. Train-test split: Is there a clear split? Is test data truly unseen?
3. Memorization risk: Could the model have seen test examples during pretraining?
4. Benchmark staleness: How widely known is the benchmark? Has it been used to optimize model performance?
5. Problem difficulty: Is the benchmark challenging enough to differentiate model capabilities? • Self-reported
MMMU
Val, 0-shot CoT, средняя микро-точность • Self-reported
Другие тесты
Специализированные бенчмарки
MMMU-Pro
Точность тестирования
AI: Используемая в машинном обучении мера того, насколько точно модель делает прогнозы на данных, которые она не видела во время обучения. Обычно вычисляется как процент правильных предсказаний от общего числа предсказаний, сделанных на тестовом наборе данных. • Self-reported
VQAv2 (test)
Точность
AI: 1 Human: 1
AI21 • Self-reported
Лицензия и метаданные
Лицензия
llama_3_2_community_license
Дата анонса
25 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиLlama 3.2 90B Instruct
Meta
MM90.0B
Лучший скор:0.9 (MMLU)
Релиз:сент. 2024 г.
Цена:$1.20/1M токенов
Llama 4 Scout
Meta
MM109.0B
Лучший скор:0.8 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.18/1M токенов
Llama 4 Maverick
Meta
MM400.0B
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.27/1M токенов
DeepSeek VL2
DeepSeek
MM27.0B
Релиз:дек. 2024 г.
Цена:$9.50/1M токенов
Llama 3.3 70B Instruct
Meta
70.0B
Лучший скор:0.9 (HumanEval)
Релиз:дек. 2024 г.
Цена:$0.88/1M токенов
Llama 3.1 70B Instruct
Meta
70.0B
Лучший скор:0.9 (ARC)
Релиз:июль 2024 г.
Цена:$0.89/1M токенов
Llama 3.2 3B Instruct
Meta
3.2B
Лучший скор:0.8 (ARC)
Релиз:сент. 2024 г.
Цена:$0.01/1M токенов
Gemma 3 27B
MM27.0B
Лучший скор:0.9 (HumanEval)
Релиз:март 2025 г.
Цена:$0.11/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.