Llama 4 Scout

Мультимодальная

Основные характеристики

Параметры

109.0B

Контекст

10.0M

Дата выпуска

5 апреля 2025 г.

Средний балл

67.3%

API документация Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

5 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

109.0B

Токены обучения

40.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.18

Выход (за 1М токенов)

$0.59

Макс. входящих токенов

10.0M

Макс. исходящих токенов

10.0M

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-шотовое macro_avg/acc_char AI: 5-shot macro_avg/acc_char • Self-reported

79.6%

Программирование

Тесты на навыки программирования

MBPP

3-shot pass@1 В задачах, в которых модель должна дать правильный ответ с первой попытки, мы оцениваем точность модели при выборе случайным образом трех примеров для каждой задачи. Мы называем эту метрику "3-shot pass@1", так как модель имеет доступ к трем примерам и должна дать правильный ответ с первой попытки. Мы используем 3-shot pass@1 для задач, где существует однозначный правильный ответ, который можно проверить автоматически, например, решение задач по математике или информатике. • Self-reported

67.8%

Математика

Математические задачи и вычисления

MATH

4-shot em_maj1@1 Этот метод определяет точность модели, оценивая, может ли она дать хотя бы один правильный ответ при нескольких попытках. Метод использует следующие шаги: 1. Генерируем n ответов на каждый вопрос, используя разные промпты или температуры. В нашем случае n=4. 2. Ответ считается правильным, если модель дала точный ответ хотя бы в одной из n попыток. 3. Вычисляем точность по всем задачам, считая задачу решенной, если хотя бы один ответ из n был правильным. Интуитивно, этот метод оценивает способность модели дать правильный ответ "хотя бы один раз", что полезно для понимания верхней границы возможностей модели при многократных попытках. Это особенно ценно при оценке сложных задач, где модель может иногда находить правильное решение, но не всегда последовательно. • Self-reported

50.3%

MGSM

0-shot (среднее/em) • Self-reported

90.6%

Рассуждения

Логические рассуждения и анализ

GPQA

0-shot (точность) • Self-reported

57.2%

Мультимодальность

Работа с изображениями и визуальными данными

ChartQA

# 0-shot CoT Этот метод применяется к задачам на рассуждение. Он получил широкое признание в сообществе LLM для улучшения математических способностей и общих навыков рассуждения. Метод инструктирует LLM «думать шаг за шагом», чтобы проработать решение вместо того, чтобы сразу переходить к ответу. Важно, что для этого метода не требуются образцы пошагового решения. ## Шаблон промпта ``` Q: [задача] A: Давай подумаем шаг за шагом. ``` ## Пример использования ``` Q: Роджер получил 90% по пяти тестам. Какой минимальный балл он должен получить на шестом тесте, чтобы получить средний балл не менее 92%? A: Давай подумаем шаг за шагом. ``` ## Анализ 0-shot CoT — это мощный и простой в реализации метод для улучшения рассуждений LLM. Он основан на свойстве, что современные LLM способны следовать инструкциям в контексте без явных примеров. Формулировка «Давай подумаем шаг за шагом» обычно приводит к улучшенным результатам по сравнению с запросами без побуждения к пошаговому рассуждению. Этот метод особенно полезен для задач, которые могут быть решены путем последовательных логических шагов. • Self-reported

88.8%

DocVQA

# 0-shot (ANLS) Метрика Average Normalized Levenshtein Similarity (ANLS) для задач зрительного понимания языка — это метрика, которая измеряет сходство между предсказанным ответом и истинным ответом с учетом возможных вариаций в написании и порядке слов. Она вычисляется путем нормализации расстояния Левенштейна (меры различия между двумя строками) по длине истинной строки и взятия среднего значения по всем примерам. Для большей четкости мы обобщаем нормализованное расстояние Левенштейна (NLD) до среднего нормализованного сходства Левенштейна (ANLS): ANLS(pred, target) = max(0, 1 - NLD(pred, target)) где NLD — нормализованное расстояние Левенштейна: NLD(pred, target) = LD(pred, target) / max(|pred|, |target|) LD — расстояние Левенштейна между предсказанной и целевой строками, а |x| — длина строки x. Затем ANLS усредняется по всем примерам в наборе данных. • Self-reported

94.4%

MathVista

0-shot CoT Chain-of-thought (CoT) — это метод получения рассуждений от языковых моделей. Несмотря на его эффективность, он не очень хорошо работает с 0-shot примерами (без примеров рассуждений). Эта задача проверяет способность модели реагировать на 0-shot CoT подсказку. Задача направлена на то, чтобы оценить, может ли модель дать пошаговое обоснование своих ответов после запроса "Давай подумаем об этом шаг за шагом", когда нет примеров таких рассуждений. Мы оцениваем, (1) дает ли модель рассуждение "цепочка мыслей" и (2) если да, приводит ли это к правильному ответу. Подсказка типа "Давай подумаем об этом шаг за шагом" сигнализирует модели, что мы хотим видеть ее процесс рассуждения, а не только окончательный ответ. Это похоже на то, как учитель может попросить ученика показать свою работу при решении математической задачи. Используя CoT, модель выявляет свой процесс мышления, что может привести к более точным ответам на сложные вопросы. • Self-reported

70.7%

MMMU

# 0-shot CoT Zero-shot Chain-of-Thought (0-shot CoT) — это простой, но эффективный метод улучшения рассуждений языковой модели путем использования подсказки "Давай подумаем шаг за шагом" (англ. "Let's think step by step"), не предоставляя при этом каких-либо примеров. В отличие от few-shot CoT, где модели показывают примеры цепочек рассуждений для различных задач, 0-shot CoT полагается исключительно на использование простой подсказки, чтобы стимулировать модель формировать пошаговые рассуждения. При сравнении с базовым промптом, который просто просит модель решить проблему, 0-shot CoT побуждает модель разбить решение на дискретные шаги, что часто приводит к более точным результатам. Несмотря на свою простоту, метод "Давай подумаем шаг за шагом" оказался удивительно эффективным для улучшения математических способностей и способностей логического рассуждения моделей. Этот метод особенно полезен, когда у вас нет готовых примеров или когда создание примеров для определенной задачи может быть слишком сложным или трудоемким. • Self-reported

69.4%

Другие тесты

Специализированные бенчмарки

LiveCodeBench

# 0-shot CoT 0-shot Chain-of-Thought (0-shot CoT) включает в себя предоставление модели подсказки решать задачу пошагово, без примеров того, как это делать. Ключевой фразой, побуждающей модель к пошаговому рассуждению, является "Давай подумаем об этом шаг за шагом". В оригинальной работе Wei et al. (2022) было показано, что добавление этой простой фразы к запросу значительно улучшает производительность модели на задачах рассуждения. Это особенно эффективно для арифметических задач, задач символьного рассуждения и задач на здравый смысл. ## Применение в контексте оценки При использовании 0-shot CoT для оценки, модель: 1. Получает задачу без примеров решения 2. Инструктируется решать задачу, разбивая её на логические шаги 3. Генерирует пошаговое рассуждение, прежде чем дать окончательный ответ Такой подход часто приводит к более точным ответам, поскольку модель вынуждена явно прорабатывать свои рассуждения, что может выявить и предотвратить логические ошибки. • Self-reported

32.8%

MMLU-Pro

0-shot (macro_avg/acc) • Self-reported

74.3%

TydiQA

1-shot average/f1 Данный метод оценивает эффективность модели в решении задач при минимальном контексте. В условиях 1-shot модель получает только один пример для обучения перед выполнением задания. Average/f1 относится к методу подсчета результатов: - Average: вычисляется среднее значение правильных ответов по всем задачам - f1: представляет собой среднее гармоническое между точностью (precision) и полнотой (recall), обеспечивая более сбалансированную метрику для задач классификации Метод особенно полезен для оценки способности модели к быстрой адаптации и обобщению в условиях ограниченных данных. Низкие показатели по этой метрике могут указывать на слабые способности модели к few-shot обучению, в то время как высокие результаты свидетельствуют о хорошей способности модели извлекать паттерны из минимального количества примеров. • Self-reported

31.5%

Лицензия и метаданные

Лицензия

llama_4_community_license_agreement

Дата анонса

5 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Llama 4 Scout

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 4 Maverick

Llama 3.2 90B Instruct

Llama 3.2 11B Instruct

Pixtral Large

GPT OSS 120B

Llama 3.1 8B Instruct

Llama 3.1 405B Instruct

Llama 3.1 70B Instruct