Meta logo

Llama 4 Maverick

Мультимодальная
Meta

Llama 4 Maverick — это изначально мультимодальная модель, способная обрабатывать как текст, так и изображения. Она использует архитектуру смеси экспертов (MoE) с 17 миллиардами активных параметров и 128 экспертами, поддерживая широкий спектр мультимодальных задач, таких как диалоговое взаимодействие, анализ изображений и генерация кода. Модель включает контекстное окно в 1 миллион токенов.

Основные характеристики

Параметры
400.0B
Контекст
1.0M
Дата выпуска
5 апреля 2025 г.
Средний балл
71.8%

Временная шкала

Ключевые даты в истории модели
Анонс
5 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
400.0B
Токены обучения
22.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.27
Выход (за 1М токенов)
$0.85
Макс. входящих токенов
1.0M
Макс. исходящих токенов
1.0M
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
5-shot macro_avg/acc_char AI: 5-shot macro_avg/acc_charSelf-reported
85.5%

Программирование

Тесты на навыки программирования
MBPP
3-shot pass@1 Для оценки отказоустойчивости модели я использую технику "трехшаговой сдачи на первой попытке" (3-shot pass@1). Этот метод тестирует способность модели последовательно решать задачи, используя следующий процесс: 1. Тестируемой модели предоставляются 3 примера решений для конкретного типа задач. 2. Затем модели дается новая задача того же типа. 3. Модель должна правильно решить задачу с первой попытки, без итераций или исправлений. Этот метод особенно полезен для оценки способности модели к обучению по немногочисленным примерам и переносу знаний. Он также демонстрирует, насколько хорошо модель может следовать установленному шаблону рассуждений. 3-shot pass@1 является строгим критерием, поскольку требует успеха с первой попытки, что лучше соответствует реальным сценариям использования, где пользователи обычно не проводят многократные итерации для получения правильного ответа.Self-reported
77.6%

Математика

Математические задачи и вычисления
MATH
4-shot em_maj1@1 Определяем, моделирует ли метод нулевые ответы для каждого примера в наборе данных, выполняем это вычисление 4 раза для набора промптов, и затем выбираем для данного примера исход, который встречается не менее двух раз. Для набора данных из m примеров метрика сообщает точную долю совпадений (1.0 — если все m примеров правильно классифицированы). Если метод не возвращает ни одной оценки для примера, мы считаем, что модель не определилась для этого примера.Self-reported
61.2%
MGSM
0-shot CoT Данный метод побуждает модель генерировать пошаговое рассуждение перед формулированием ответа, но без необходимости демонстрировать это в примерах. Это достигается с помощью небольшого изменения исходного запроса. Например, вместо запроса: "Каково будет значение следующего выражения: 536 - 317?" мы можем задать: "Каково будет значение следующего выражения: 536 - 317? Давай решать шаг за шагом". Дополнение "Давай решать шаг за шагом" или "Давай обдумаем это" побуждает модель генерировать цепочку рассуждений, которая приводит к более точным ответам. Цепочка рассуждений позволяет модели разбить сложную задачу на более простые компоненты и последовательно их решать. Это обычно повышает производительность на задачах, требующих нескольких шагов мышления. Кроме того, пошаговое рассуждение помогает пользователям понять, как модель пришла к своему ответу, делая рассуждение более прозрачным. Этот метод особенно эффективен для арифметических, логических и задач, требующих многоэтапных рассуждений, и может быть применен к широкому спектру задач без необходимости какой-либо демонстрации.Self-reported
92.3%

Рассуждения

Логические рассуждения и анализ
GPQA
0-shot CoT AI: *эту строку следует удалить* В 0-shot CoT мы добавляем простую подсказку "Давайте рассуждать шаг за шагом" к запросу. Обоснование: Предыдущие исследования показали, что добавление фразы "Давайте рассуждать шаг за шагом" может заметно улучшить рассуждения модели при ответе на сложные вопросы. Это побуждает модель мыслить более последовательно и методично, что часто приводит к повышению точности. Хотя эта техника проста, она оказалась удивительно эффективной, особенно в задачах, требующих поэтапного решения.Self-reported
69.8%

Мультимодальность

Работа с изображениями и визуальными данными
ChartQA
0-shot CoT Метод Chain-of-Thought ("цепочка рассуждений") без примеров, когда модель самостоятельно выстраивает последовательное рассуждение, часто активируемое такими инструкциями как "Давай подумаем шаг за шагом" или "Давай решим эту задачу последовательно".Self-reported
90.0%
DocVQA
0-shot CoT Бестрассировочное рассуждение через промежуточные шаги. Спонтанно разделяет решение задачи на промежуточные шаги. Решения могут быть более или менее подробными. Отсутствует предварительное указание модели использовать пошаговое рассуждение. 0-shot CoT просто генерирует пошаговое рассуждение без особых инструкций, например в ответ на подсказку "Вопрос: [вопрос]?". LLM естественным образом разбивает решение на шаги. Часто пошаговое рассуждение появляется само по себе, особенно в более мощных моделях LLM, когда задача: - сложная, как в математических задачах - требует нескольких шагов логики - требует инференции Эффективность этого метода обычно ниже, чем у методов с явным запросом на пошаговое рассуждение (например, k-shot CoT или Zero-shot-CoT).Self-reported
94.4%
MathVista
0-shot CoT Zero-shot Chain-of-Thought (0-shot CoT) — это метод вывода, при котором языковая модель направляется к решению проблемы шаг за шагом, но без демонстрации примеров такого пошагового рассуждения. Это достигается с помощью простых подсказок, таких как "Давай решим это шаг за шагом" или "Давай подумаем об этом", которые помещаются в конец запроса. Такая минимальная подсказка значительно улучшает производительность модели по сравнению с нулевым снимком (обычным запросом без дополнительных инструкций), побуждая модель провести промежуточные рассуждения перед формулировкой ответа. Когда языковая модель сначала объясняет свои рассуждения, она часто достигает более высокой точности, особенно в задачах, требующих сложных вычислений или многошагового анализа. 0-shot CoT особенно полезен в тех случаях, когда у нас нет возможности или желания предоставлять примеры для демонстрации, как при few-shot CoT.Self-reported
73.7%
MMMU
Рассуждение с нуля 0-shot CoT побуждает модель языка генерировать цепочку рассуждений, опираясь только на инструкцию и не используя примеры. Инструкция может быть сформулирована, например: "Давай подумаем шаг за шагом". Это заставляет модель более явно рассуждать о проблеме, прежде чем предоставить окончательный ответ, и приводит к гораздо более высокой точности по сравнению с прямым предсказанием ответа. Рассуждение с нуля особенно полезно, когда: 1. Примеры рассуждений трудно предоставить или их предоставление может вызвать предвзятость 2. Пространство решений слишком разнообразно, чтобы его можно было адекватно охватить примерами 3. Задача требует нестандартных подходов к рассуждению Этот метод был впервые представлен Wei et al. (2022) и доказал свою эффективность в арифметических задачах, задачах здравого смысла и символических рассуждениях.Self-reported
73.4%

Другие тесты

Специализированные бенчмарки
LiveCodeBench
0-shot CoT Применение подсказки к LLM для структурирования ответа с пошаговым логическим выводом без примеров. Метод заключается в добавлении фразы "Давай подумаем шаг за шагом" (или аналогичной) в конце запроса. Это побуждает модель использовать более аналитический процесс рассуждения, разбивая сложную задачу на последовательность шагов. В отличие от few-shot CoT, который требует демонстрации примеров с рассуждениями, 0-shot CoT не требует примеров. Он особенно полезен для задач, требующих рассуждений, таких как арифметические задачи, логические головоломки и задачи рассуждения о здравом смысле. Этот метод, впервые представленный в статье Такеши Койоши и др. (2022), значительно улучшает производительность на задачах, требующих рассуждений, просто добавляя короткую подсказку, которая побуждает модель мыслить более методично.Self-reported
43.4%
MMLU-Pro
0-shot CoT Традиционный 0-shot Chain-of-Thought (цепочка рассуждений без примеров) — это метод, при котором LLM побуждается к рассуждению шаг за шагом перед формулированием окончательного ответа, но без предоставления примеров того, как выполнять подобные рассуждения. Обычно это делается путем добавления к запросу таких фраз, как "Давай решим это шаг за шагом" или "Давай подумаем об этом внимательно". В наших экспериментах мы использовали следующий шаблон запроса: ``` [Вопрос] Давай решим это шаг за шагом. ``` Этот метод представляет собой промежуточный шаг между базовым подходом (просто задать вопрос) и более сложными методами, которые включают примеры или специализированные инструкции.Self-reported
80.5%
MMMU-Pro
0-shot CoT Zero-shot Chain-of-Thought (0-shot CoT) — это метод, который побуждает LLM "размышлять шаг за шагом" при ответе на вопрос, не показывая конкретные примеры такого размышления. В отличие от стандартных промптов, которые просто запрашивают ответ, и few-shot CoT, который показывает примеры пошагового рассуждения, 0-shot CoT содержит только подсказку "давай рассуждать шаг за шагом" перед или после вопроса. Ключевые характеристики: - Без примеров: Не требует предоставления примеров пошагового рассуждения - Простой в применении: Минимальное изменение промпта для значительного улучшения результатов - Эффективный: Показывает существенное улучшение на задачах рассуждения, хотя и не такое сильное, как few-shot CoT Ограничения: - Менее эффективен, чем few-shot CoT, особенно на сложных задачах - Не всегда приводит к правильному рассуждению или ответу - Эффективность зависит от конкретной задачи и модели Формулировки подсказок: - "Давай рассуждать шаг за шагом" - "Давай работать над этим пошагово" - "Давай решим эту задачу шаг за шагом" Научное обоснование: Введено в статье Kojima et al. (2022) "Large Language Models are Zero-Shot Reasoners", которая показала, что простая подсказка может существенно улучшить способность модели к рассуждению без необходимости в примерах.Self-reported
59.6%
TydiQA
1-shot среднее/f1Self-reported
31.7%

Лицензия и метаданные

Лицензия
llama_4_community_license_agreement
Дата анонса
5 апреля 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.