Llama 3.1 405B Instruct

Основные характеристики

Параметры

405.0B

Контекст

128.0K

Дата выпуска

23 июля 2024 г.

Средний балл

79.2%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

405.0B

Токены обучения

15.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$3.50

Выход (за 1М токенов)

$3.50

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-shot, macro_avg/acc • Self-reported

87.3%

Программирование

Тесты на навыки программирования

HumanEval

0-shot, pass@1 • Self-reported

89.0%

Математика

Математические задачи и вычисления

GSM8k

8-shot, CoT, em_maj1@1 В этом подходе мы используем цепочку размышлений (CoT), которая запускается с разных начальных точек, чтобы попытаться решить математическую задачу. Мы вычисляем ответ путем принятия наиболее распространенного ответа из совокупности решений. Более конкретно: 1. Мы делаем 8 различных запусков CoT с разными системными подсказками. 2. В каждом запуске модель размышляет над задачей и генерирует ответ. 3. Затем мы извлекаем окончательный ответ из каждого прогона. 4. Мы выбираем наиболее распространенный ответ (т.е. применяем мажоритарное голосование). Преимущество такого подхода в том, что он может помочь устранить случайные ошибки, которые модель может допустить в отдельных прогонах. Запуская несколько раз и выбирая наиболее распространенный ответ, мы можем с большей вероятностью получить правильный ответ. • Self-reported

96.8%

MATH

0-выстрел, цепочка размышлений, финальный точный ответ • Self-reported

73.8%

Рассуждения

Логические рассуждения и анализ

DROP

0-shot - это метод, при котором модель искусственного интеллекта решает новую задачу, не видя ни одного примера правильного решения. Модель полагается исключительно на свои предварительно приобретенные знания и способности для выполнения поставленной задачи. Например, если модель получает математическую задачу, она должна решить ее, опираясь только на свои существующие знания о математике, без доступа к примерам решения подобных задач. Этот подход проверяет базовые способности модели и ее предварительное обучение, а не способность адаптироваться к конкретным образцам или форматам. 0-shot тестирование считается одним из самых строгих методов оценки универсальности и глубины понимания модели, поскольку требует применения общих знаний к конкретной задаче без дополнительных подсказок или обучения. • Self-reported

84.8%

GPQA

Никакая подсказка или указание не требуются для того, чтобы модель использовала инструмент. Вы можете напрямую попросить модель выполнить задачу, и она выполнит её, используя все доступные инструменты по своему усмотрению. Этот подход является эффективным для общего понимания возможностей модели, но может быть непредсказуемым с точки зрения того, какие инструменты будут использованы или пропущены. Примеры запросов: - "Расскажи мне о текущей погоде в Нью-Йорке." - "Расскажи мне о новостях дня." - "Найди статьи о глобальном потеплении." • Self-reported

50.7%

Другие тесты

Специализированные бенчмарки

API-Bank

0-shot Оценивает способность модели выполнять задачу без каких-либо примеров, инструкций или объяснений. Модели представляется только вопрос или проблема. Например, при решении математической задачи: Исходный вопрос: "Найдите наименьшее положительное целое число n такое, что n² - 20n + 96 является полным квадратом." Модели не предоставляются никакие советы, указания или образцы решения. Модель должна самостоятельно сформулировать подход к решению и выполнить все необходимые шаги. • Self-reported

92.0%

ARC-C

Одноэтапное тестирование, или 0-shot, предполагает предоставление модели подсказки или запроса без каких-либо предварительных примеров или дополнительного контекста, и получение результата. Этот подход оценивает способность модели применять свои предварительно полученные знания к новой задаче без специальной адаптации. 0-shot подход особенно ценен для оценки, насколько хорошо модель может обобщать свои знания в различных контекстах. Главное преимущество 0-shot тестирования заключается в его простоте и эффективности. Оно устраняет необходимость в разработке специфических примеров для каждой задачи и может дать более реалистичное представление о производительности модели в реальных условиях, где пользователи редко предоставляют обширный контекст. Однако 0-shot подход может не полностью отражать потенциал модели, особенно в сложных или специализированных задачах, где некоторая настройка была бы полезна. • Self-reported

96.9%

BFCL

Исходный запрос: переведите приведенный ниже текст с английского на русский. Вывод: (переведенный текст будет здесь) 0-shot означает, что модель пытается выполнить задачу напрямую из указаний в запросе, без дополнительных примеров. Этот подход измеряет способность модели сразу понять задачу без демонстрации того, как она должна быть выполнена. Противоположностью является few-shot, где мы показываем модели один или несколько примеров выполнения задачи перед тем, как она должна выполнить саму задачу. • Self-reported

88.5%

Gorilla Benchmark API Bench

0-shot Этот метод не предоставляет никаких демонстраций или обучающих примеров для выполнения задачи. Вместо этого, модель должна полагаться на знания, полученные во время предварительного обучения, чтобы генерировать решения. • Self-reported

35.3%

IFEval

# Стандартный ## Что это такое Стандартное тестирование — самый простой и наименее подробный способ оценить модель. Оно используется, чтобы установить базовые показатели производительности и позволить быстрое сравнение результатов. Стандартное тестирование, как правило, состоит из определенного набора запросов и задач, часто предоставляемых пользователями или исследователями в области тестирования, которые оцениваются на соответствие заранее определенным критериям. ## Когда его использовать - Когда вам нужно быстро сравнить производительность нескольких моделей для принятия решений. - Для установления базовых показателей, на основе которых можно проводить более глубокий анализ. - Когда вы хотите выявить явные проблемы перед более детальной оценкой. ## Плюсы - Быстрота и простота выполнения. - Упрощает сравнение различных моделей. - Позволяет собрать данные о производительности с минимальными затратами. ## Минусы - Предлагает ограниченное понимание реальных возможностей модели. - Может дать чрезмерно упрощенное представление о сложных моделях. - Не выявляет нюансы, которые могут быть критически важны для определенных случаев использования. ## Когда этого недостаточно Стандартного тестирования недостаточно, когда вам нужно глубокое понимание возможностей модели, особенно при оценке: - Сложных рассуждений и мыслительных процессов - Согласованности ответов на разные запросы - Устойчивости к различным видам атак - Возможности интерпретации запросов с различными интенциями - Практических применений в сложных, многогранных задачах ## Типичные методы - Прямое выполнение стандартных тестов, таких как MMLU, GSM8K, HumanEval - Запросы с предопределенными ожидаемыми ответами - Оценка точности выполнения простых инструкций - Проверка соответствия базовой политике безопасности ## Улучшения Стандартное тестирование можно улучшить путем: - Включения более разнообразных задач, охватывающих различные домены и типы навыков - Добавления более сложных примеров, которые проверяют границы возможностей модели - Использования автоматических инструментов для оценки, чтобы ускорить процесс - Отслеживания результатов с течением времени для выявления тен • Self-reported

88.6%

MBPP EvalPlus

0-shot, base, pass@1 • Self-reported

88.6%

MMLU (CoT)

0-выстрел, macro_avg/acc • Self-reported

88.6%

MMLU-Pro

5-shot, CoT, micro_avg/acc_char • Self-reported

73.3%

Multilingual MGSM (CoT)

0-shot, CoT, em Пробуем модель в режиме цепочки рассуждений (CoT). Для 0-shot используем указание "решай поэтапно", без каких-либо примеров. Здесь "em" означает "точное соответствие" - проверка выдает ли модель ответ, который в точности совпадает с заданным правильным ответом для данной задачи. Обратите внимание, что в некоторых случаях модель может прийти к правильному заключению, но из-за различий в формате или округлении оценка em может быть строгой. • Self-reported

91.6%

Multipl-E HumanEval

0-shot, pass@1 AI: Это метод, который измеряет, насколько часто модель может решить задачу с первой попытки без примеров для обучения. Модель получает задачу и должна предоставить правильный ответ с первой попытки. Для проблемы с однозначным ответом, как в математике, считается, что модель "прошла" задачу, если ее первый ответ верен. Метрика pass@1 измеряет долю задач, которые модель решила правильно с первой попытки. Термин "0-shot" означает, что модели не предоставляются примеры решения подобных задач. В отличие от few-shot подхода, где модели даются несколько примеров задач с решениями перед тестированием, при 0-shot подходе модель должна полагаться только на знания, полученные во время предварительного обучения. Метрика pass@1 является строгой мерой оценки, поскольку не позволяет модели делать несколько попыток или исправлять ошибки. Это делает её хорошим индикатором надежности модели для применений, где требуется точность с первой попытки. • Self-reported

75.2%

Multipl-E MBPP

0-shot, pass@1 • Self-reported

65.7%

Nexus

0-shot, macro_avg/acc • Self-reported

58.7%

Лицензия и метаданные

Лицензия

llama_3_1_community_license

Дата анонса

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Llama 3.1 405B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.3 70B Instruct

Llama 3.1 70B Instruct

Llama 4 Maverick

Command R+

DeepSeek-V3

Kimi K2 Instruct

Mistral Large 2

DeepSeek-R1