Llama 4 Maverick

Мультимодальная

Основные характеристики

Параметры

400.0B

Контекст

1.0M

Дата выпуска

5 апреля 2025 г.

Средний балл

71.8%

API документация Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

5 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

400.0B

Токены обучения

22.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.27

Выход (за 1М токенов)

$0.85

Макс. входящих токенов

1.0M

Макс. исходящих токенов

1.0M

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-shot macro_avg/acc_char AI: 5-shot macro_avg/acc_char • Self-reported

85.5%

Программирование

Тесты на навыки программирования

MBPP

3-shot pass@1 Для оценки отказоустойчивости модели я использую технику "трехшаговой сдачи на первой попытке" (3-shot pass@1). Этот метод тестирует способность модели последовательно решать задачи, используя следующий процесс: 1. Тестируемой модели предоставляются 3 примера решений для конкретного типа задач. 2. Затем модели дается новая задача того же типа. 3. Модель должна правильно решить задачу с первой попытки, без итераций или исправлений. Этот метод особенно полезен для оценки способности модели к обучению по немногочисленным примерам и переносу знаний. Он также демонстрирует, насколько хорошо модель может следовать установленному шаблону рассуждений. 3-shot pass@1 является строгим критерием, поскольку требует успеха с первой попытки, что лучше соответствует реальным сценариям использования, где пользователи обычно не проводят многократные итерации для получения правильного ответа. • Self-reported

77.6%

Математика

Математические задачи и вычисления

MATH

4-shot em_maj1@1 Определяем, моделирует ли метод нулевые ответы для каждого примера в наборе данных, выполняем это вычисление 4 раза для набора промптов, и затем выбираем для данного примера исход, который встречается не менее двух раз. Для набора данных из m примеров метрика сообщает точную долю совпадений (1.0 — если все m примеров правильно классифицированы). Если метод не возвращает ни одной оценки для примера, мы считаем, что модель не определилась для этого примера. • Self-reported

61.2%

MGSM

0-shot CoT Данный метод побуждает модель генерировать пошаговое рассуждение перед формулированием ответа, но без необходимости демонстрировать это в примерах. Это достигается с помощью небольшого изменения исходного запроса. Например, вместо запроса: "Каково будет значение следующего выражения: 536 - 317?" мы можем задать: "Каково будет значение следующего выражения: 536 - 317? Давай решать шаг за шагом". Дополнение "Давай решать шаг за шагом" или "Давай обдумаем это" побуждает модель генерировать цепочку рассуждений, которая приводит к более точным ответам. Цепочка рассуждений позволяет модели разбить сложную задачу на более простые компоненты и последовательно их решать. Это обычно повышает производительность на задачах, требующих нескольких шагов мышления. Кроме того, пошаговое рассуждение помогает пользователям понять, как модель пришла к своему ответу, делая рассуждение более прозрачным. Этот метод особенно эффективен для арифметических, логических и задач, требующих многоэтапных рассуждений, и может быть применен к широкому спектру задач без необходимости какой-либо демонстрации. • Self-reported

92.3%

Рассуждения

Логические рассуждения и анализ

GPQA

0-shot CoT AI: *эту строку следует удалить* В 0-shot CoT мы добавляем простую подсказку "Давайте рассуждать шаг за шагом" к запросу. Обоснование: Предыдущие исследования показали, что добавление фразы "Давайте рассуждать шаг за шагом" может заметно улучшить рассуждения модели при ответе на сложные вопросы. Это побуждает модель мыслить более последовательно и методично, что часто приводит к повышению точности. Хотя эта техника проста, она оказалась удивительно эффективной, особенно в задачах, требующих поэтапного решения. • Self-reported

69.8%

Мультимодальность

Работа с изображениями и визуальными данными

ChartQA

0-shot CoT Метод Chain-of-Thought ("цепочка рассуждений") без примеров, когда модель самостоятельно выстраивает последовательное рассуждение, часто активируемое такими инструкциями как "Давай подумаем шаг за шагом" или "Давай решим эту задачу последовательно". • Self-reported

90.0%

DocVQA

0-shot CoT Бестрассировочное рассуждение через промежуточные шаги. Спонтанно разделяет решение задачи на промежуточные шаги. Решения могут быть более или менее подробными. Отсутствует предварительное указание модели использовать пошаговое рассуждение. 0-shot CoT просто генерирует пошаговое рассуждение без особых инструкций, например в ответ на подсказку "Вопрос: [вопрос]?". LLM естественным образом разбивает решение на шаги. Часто пошаговое рассуждение появляется само по себе, особенно в более мощных моделях LLM, когда задача: - сложная, как в математических задачах - требует нескольких шагов логики - требует инференции Эффективность этого метода обычно ниже, чем у методов с явным запросом на пошаговое рассуждение (например, k-shot CoT или Zero-shot-CoT). • Self-reported

94.4%

MathVista

0-shot CoT Zero-shot Chain-of-Thought (0-shot CoT) — это метод вывода, при котором языковая модель направляется к решению проблемы шаг за шагом, но без демонстрации примеров такого пошагового рассуждения. Это достигается с помощью простых подсказок, таких как "Давай решим это шаг за шагом" или "Давай подумаем об этом", которые помещаются в конец запроса. Такая минимальная подсказка значительно улучшает производительность модели по сравнению с нулевым снимком (обычным запросом без дополнительных инструкций), побуждая модель провести промежуточные рассуждения перед формулировкой ответа. Когда языковая модель сначала объясняет свои рассуждения, она часто достигает более высокой точности, особенно в задачах, требующих сложных вычислений или многошагового анализа. 0-shot CoT особенно полезен в тех случаях, когда у нас нет возможности или желания предоставлять примеры для демонстрации, как при few-shot CoT. • Self-reported

73.7%

MMMU

Рассуждение с нуля 0-shot CoT побуждает модель языка генерировать цепочку рассуждений, опираясь только на инструкцию и не используя примеры. Инструкция может быть сформулирована, например: "Давай подумаем шаг за шагом". Это заставляет модель более явно рассуждать о проблеме, прежде чем предоставить окончательный ответ, и приводит к гораздо более высокой точности по сравнению с прямым предсказанием ответа. Рассуждение с нуля особенно полезно, когда: 1. Примеры рассуждений трудно предоставить или их предоставление может вызвать предвзятость 2. Пространство решений слишком разнообразно, чтобы его можно было адекватно охватить примерами 3. Задача требует нестандартных подходов к рассуждению Этот метод был впервые представлен Wei et al. (2022) и доказал свою эффективность в арифметических задачах, задачах здравого смысла и символических рассуждениях. • Self-reported

73.4%

Другие тесты

Специализированные бенчмарки

LiveCodeBench

0-shot CoT Применение подсказки к LLM для структурирования ответа с пошаговым логическим выводом без примеров. Метод заключается в добавлении фразы "Давай подумаем шаг за шагом" (или аналогичной) в конце запроса. Это побуждает модель использовать более аналитический процесс рассуждения, разбивая сложную задачу на последовательность шагов. В отличие от few-shot CoT, который требует демонстрации примеров с рассуждениями, 0-shot CoT не требует примеров. Он особенно полезен для задач, требующих рассуждений, таких как арифметические задачи, логические головоломки и задачи рассуждения о здравом смысле. Этот метод, впервые представленный в статье Такеши Койоши и др. (2022), значительно улучшает производительность на задачах, требующих рассуждений, просто добавляя короткую подсказку, которая побуждает модель мыслить более методично. • Self-reported

43.4%

MMLU-Pro

0-shot CoT Традиционный 0-shot Chain-of-Thought (цепочка рассуждений без примеров) — это метод, при котором LLM побуждается к рассуждению шаг за шагом перед формулированием окончательного ответа, но без предоставления примеров того, как выполнять подобные рассуждения. Обычно это делается путем добавления к запросу таких фраз, как "Давай решим это шаг за шагом" или "Давай подумаем об этом внимательно". В наших экспериментах мы использовали следующий шаблон запроса: ``` [Вопрос] Давай решим это шаг за шагом. ``` Этот метод представляет собой промежуточный шаг между базовым подходом (просто задать вопрос) и более сложными методами, которые включают примеры или специализированные инструкции. • Self-reported

80.5%

MMMU-Pro

0-shot CoT Zero-shot Chain-of-Thought (0-shot CoT) — это метод, который побуждает LLM "размышлять шаг за шагом" при ответе на вопрос, не показывая конкретные примеры такого размышления. В отличие от стандартных промптов, которые просто запрашивают ответ, и few-shot CoT, который показывает примеры пошагового рассуждения, 0-shot CoT содержит только подсказку "давай рассуждать шаг за шагом" перед или после вопроса. Ключевые характеристики: - Без примеров: Не требует предоставления примеров пошагового рассуждения - Простой в применении: Минимальное изменение промпта для значительного улучшения результатов - Эффективный: Показывает существенное улучшение на задачах рассуждения, хотя и не такое сильное, как few-shot CoT Ограничения: - Менее эффективен, чем few-shot CoT, особенно на сложных задачах - Не всегда приводит к правильному рассуждению или ответу - Эффективность зависит от конкретной задачи и модели Формулировки подсказок: - "Давай рассуждать шаг за шагом" - "Давай работать над этим пошагово" - "Давай решим эту задачу шаг за шагом" Научное обоснование: Введено в статье Kojima et al. (2022) "Large Language Models are Zero-Shot Reasoners", которая показала, что простая подсказка может существенно улучшить способность модели к рассуждению без необходимости в примерах. • Self-reported

59.6%

TydiQA

1-shot среднее/f1 • Self-reported

31.7%

Лицензия и метаданные

Лицензия

llama_4_community_license_agreement

Дата анонса

5 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Llama 4 Maverick

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 4 Scout

GPT OSS 120B

Llama 3.1 405B Instruct

Llama 3.2 11B Instruct

Llama 3.2 90B Instruct

Pixtral Large

Llama 3.1 70B Instruct

GPT OSS 20B