Meta logo

Llama 3.1 405B Instruct

Meta

Llama 3.1 405B Instruct — это большая языковая модель, оптимизированная для многоязычных диалоговых задач. Она превосходит многие доступные модели с открытым исходным кодом и закрытые чат-модели по стандартным отраслевым бенчмаркам. Модель поддерживает 8 языков и имеет контекстное окно длиной 128K токенов.

Основные характеристики

Параметры
405.0B
Контекст
128.0K
Дата выпуска
23 июля 2024 г.
Средний балл
79.2%

Временная шкала

Ключевые даты в истории модели
Анонс
23 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
405.0B
Токены обучения
15.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$3.50
Выход (за 1М токенов)
$3.50
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
5-shot, macro_avg/accSelf-reported
87.3%

Программирование

Тесты на навыки программирования
HumanEval
0-shot, pass@1Self-reported
89.0%

Математика

Математические задачи и вычисления
GSM8k
8-shot, CoT, em_maj1@1 В этом подходе мы используем цепочку размышлений (CoT), которая запускается с разных начальных точек, чтобы попытаться решить математическую задачу. Мы вычисляем ответ путем принятия наиболее распространенного ответа из совокупности решений. Более конкретно: 1. Мы делаем 8 различных запусков CoT с разными системными подсказками. 2. В каждом запуске модель размышляет над задачей и генерирует ответ. 3. Затем мы извлекаем окончательный ответ из каждого прогона. 4. Мы выбираем наиболее распространенный ответ (т.е. применяем мажоритарное голосование). Преимущество такого подхода в том, что он может помочь устранить случайные ошибки, которые модель может допустить в отдельных прогонах. Запуская несколько раз и выбирая наиболее распространенный ответ, мы можем с большей вероятностью получить правильный ответ.Self-reported
96.8%
MATH
0-выстрел, цепочка размышлений, финальный точный ответSelf-reported
73.8%

Рассуждения

Логические рассуждения и анализ
DROP
0-shot - это метод, при котором модель искусственного интеллекта решает новую задачу, не видя ни одного примера правильного решения. Модель полагается исключительно на свои предварительно приобретенные знания и способности для выполнения поставленной задачи. Например, если модель получает математическую задачу, она должна решить ее, опираясь только на свои существующие знания о математике, без доступа к примерам решения подобных задач. Этот подход проверяет базовые способности модели и ее предварительное обучение, а не способность адаптироваться к конкретным образцам или форматам. 0-shot тестирование считается одним из самых строгих методов оценки универсальности и глубины понимания модели, поскольку требует применения общих знаний к конкретной задаче без дополнительных подсказок или обучения.Self-reported
84.8%
GPQA
Никакая подсказка или указание не требуются для того, чтобы модель использовала инструмент. Вы можете напрямую попросить модель выполнить задачу, и она выполнит её, используя все доступные инструменты по своему усмотрению. Этот подход является эффективным для общего понимания возможностей модели, но может быть непредсказуемым с точки зрения того, какие инструменты будут использованы или пропущены. Примеры запросов: - "Расскажи мне о текущей погоде в Нью-Йорке." - "Расскажи мне о новостях дня." - "Найди статьи о глобальном потеплении."Self-reported
50.7%

Другие тесты

Специализированные бенчмарки
API-Bank
0-shot Оценивает способность модели выполнять задачу без каких-либо примеров, инструкций или объяснений. Модели представляется только вопрос или проблема. Например, при решении математической задачи: Исходный вопрос: "Найдите наименьшее положительное целое число n такое, что n² - 20n + 96 является полным квадратом." Модели не предоставляются никакие советы, указания или образцы решения. Модель должна самостоятельно сформулировать подход к решению и выполнить все необходимые шаги.Self-reported
92.0%
ARC-C
Одноэтапное тестирование, или 0-shot, предполагает предоставление модели подсказки или запроса без каких-либо предварительных примеров или дополнительного контекста, и получение результата. Этот подход оценивает способность модели применять свои предварительно полученные знания к новой задаче без специальной адаптации. 0-shot подход особенно ценен для оценки, насколько хорошо модель может обобщать свои знания в различных контекстах. Главное преимущество 0-shot тестирования заключается в его простоте и эффективности. Оно устраняет необходимость в разработке специфических примеров для каждой задачи и может дать более реалистичное представление о производительности модели в реальных условиях, где пользователи редко предоставляют обширный контекст. Однако 0-shot подход может не полностью отражать потенциал модели, особенно в сложных или специализированных задачах, где некоторая настройка была бы полезна.Self-reported
96.9%
BFCL
Исходный запрос: переведите приведенный ниже текст с английского на русский. Вывод: (переведенный текст будет здесь) 0-shot означает, что модель пытается выполнить задачу напрямую из указаний в запросе, без дополнительных примеров. Этот подход измеряет способность модели сразу понять задачу без демонстрации того, как она должна быть выполнена. Противоположностью является few-shot, где мы показываем модели один или несколько примеров выполнения задачи перед тем, как она должна выполнить саму задачу.Self-reported
88.5%
Gorilla Benchmark API Bench
0-shot Этот метод не предоставляет никаких демонстраций или обучающих примеров для выполнения задачи. Вместо этого, модель должна полагаться на знания, полученные во время предварительного обучения, чтобы генерировать решения.Self-reported
35.3%
IFEval
# Стандартный ## Что это такое Стандартное тестирование — самый простой и наименее подробный способ оценить модель. Оно используется, чтобы установить базовые показатели производительности и позволить быстрое сравнение результатов. Стандартное тестирование, как правило, состоит из определенного набора запросов и задач, часто предоставляемых пользователями или исследователями в области тестирования, которые оцениваются на соответствие заранее определенным критериям. ## Когда его использовать - Когда вам нужно быстро сравнить производительность нескольких моделей для принятия решений. - Для установления базовых показателей, на основе которых можно проводить более глубокий анализ. - Когда вы хотите выявить явные проблемы перед более детальной оценкой. ## Плюсы - Быстрота и простота выполнения. - Упрощает сравнение различных моделей. - Позволяет собрать данные о производительности с минимальными затратами. ## Минусы - Предлагает ограниченное понимание реальных возможностей модели. - Может дать чрезмерно упрощенное представление о сложных моделях. - Не выявляет нюансы, которые могут быть критически важны для определенных случаев использования. ## Когда этого недостаточно Стандартного тестирования недостаточно, когда вам нужно глубокое понимание возможностей модели, особенно при оценке: - Сложных рассуждений и мыслительных процессов - Согласованности ответов на разные запросы - Устойчивости к различным видам атак - Возможности интерпретации запросов с различными интенциями - Практических применений в сложных, многогранных задачах ## Типичные методы - Прямое выполнение стандартных тестов, таких как MMLU, GSM8K, HumanEval - Запросы с предопределенными ожидаемыми ответами - Оценка точности выполнения простых инструкций - Проверка соответствия базовой политике безопасности ## Улучшения Стандартное тестирование можно улучшить путем: - Включения более разнообразных задач, охватывающих различные домены и типы навыков - Добавления более сложных примеров, которые проверяют границы возможностей модели - Использования автоматических инструментов для оценки, чтобы ускорить процесс - Отслеживания результатов с течением времени для выявления тенSelf-reported
88.6%
MBPP EvalPlus
0-shot, base, pass@1Self-reported
88.6%
MMLU (CoT)
0-выстрел, macro_avg/accSelf-reported
88.6%
MMLU-Pro
5-shot, CoT, micro_avg/acc_charSelf-reported
73.3%
Multilingual MGSM (CoT)
0-shot, CoT, em Пробуем модель в режиме цепочки рассуждений (CoT). Для 0-shot используем указание "решай поэтапно", без каких-либо примеров. Здесь "em" означает "точное соответствие" - проверка выдает ли модель ответ, который в точности совпадает с заданным правильным ответом для данной задачи. Обратите внимание, что в некоторых случаях модель может прийти к правильному заключению, но из-за различий в формате или округлении оценка em может быть строгой.Self-reported
91.6%
Multipl-E HumanEval
0-shot, pass@1 AI: Это метод, который измеряет, насколько часто модель может решить задачу с первой попытки без примеров для обучения. Модель получает задачу и должна предоставить правильный ответ с первой попытки. Для проблемы с однозначным ответом, как в математике, считается, что модель "прошла" задачу, если ее первый ответ верен. Метрика pass@1 измеряет долю задач, которые модель решила правильно с первой попытки. Термин "0-shot" означает, что модели не предоставляются примеры решения подобных задач. В отличие от few-shot подхода, где модели даются несколько примеров задач с решениями перед тестированием, при 0-shot подходе модель должна полагаться только на знания, полученные во время предварительного обучения. Метрика pass@1 является строгой мерой оценки, поскольку не позволяет модели делать несколько попыток или исправлять ошибки. Это делает её хорошим индикатором надежности модели для применений, где требуется точность с первой попытки.Self-reported
75.2%
Multipl-E MBPP
0-shot, pass@1Self-reported
65.7%
Nexus
0-shot, macro_avg/accSelf-reported
58.7%

Лицензия и метаданные

Лицензия
llama_3_1_community_license
Дата анонса
23 июля 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.