Llama 3.1 405B Instruct
Llama 3.1 405B Instruct — это большая языковая модель, оптимизированная для многоязычных диалоговых задач. Она превосходит многие доступные модели с открытым исходным кодом и закрытые чат-модели по стандартным отраслевым бенчмаркам. Модель поддерживает 8 языков и имеет контекстное окно длиной 128K токенов.
Основные характеристики
Параметры
405.0B
Контекст
128.0K
Дата выпуска
23 июля 2024 г.
Средний балл
79.2%
Временная шкала
Ключевые даты в истории модели
Анонс
23 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
405.0B
Токены обучения
15.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$3.50
Выход (за 1М токенов)
$3.50
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
5-shot, macro_avg/acc • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
0-shot, pass@1 • Self-reported
Математика
Математические задачи и вычисления
GSM8k
8-shot, CoT, em_maj1@1
В этом подходе мы используем цепочку размышлений (CoT), которая запускается с разных начальных точек, чтобы попытаться решить математическую задачу. Мы вычисляем ответ путем принятия наиболее распространенного ответа из совокупности решений.
Более конкретно:
1. Мы делаем 8 различных запусков CoT с разными системными подсказками.
2. В каждом запуске модель размышляет над задачей и генерирует ответ.
3. Затем мы извлекаем окончательный ответ из каждого прогона.
4. Мы выбираем наиболее распространенный ответ (т.е. применяем мажоритарное голосование).
Преимущество такого подхода в том, что он может помочь устранить случайные ошибки, которые модель может допустить в отдельных прогонах. Запуская несколько раз и выбирая наиболее распространенный ответ, мы можем с большей вероятностью получить правильный ответ. • Self-reported
MATH
0-выстрел, цепочка размышлений, финальный точный ответ • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
0-shot - это метод, при котором модель искусственного интеллекта решает новую задачу, не видя ни одного примера правильного решения. Модель полагается исключительно на свои предварительно приобретенные знания и способности для выполнения поставленной задачи. Например, если модель получает математическую задачу, она должна решить ее, опираясь только на свои существующие знания о математике, без доступа к примерам решения подобных задач. Этот подход проверяет базовые способности модели и ее предварительное обучение, а не способность адаптироваться к конкретным образцам или форматам. 0-shot тестирование считается одним из самых строгих методов оценки универсальности и глубины понимания модели, поскольку требует применения общих знаний к конкретной задаче без дополнительных подсказок или обучения. • Self-reported
GPQA
Никакая подсказка или указание не требуются для того, чтобы модель использовала инструмент. Вы можете напрямую попросить модель выполнить задачу, и она выполнит её, используя все доступные инструменты по своему усмотрению. Этот подход является эффективным для общего понимания возможностей модели, но может быть непредсказуемым с точки зрения того, какие инструменты будут использованы или пропущены.
Примеры запросов:
- "Расскажи мне о текущей погоде в Нью-Йорке."
- "Расскажи мне о новостях дня."
- "Найди статьи о глобальном потеплении." • Self-reported
Другие тесты
Специализированные бенчмарки
API-Bank
0-shot
Оценивает способность модели выполнять задачу без каких-либо примеров, инструкций или объяснений. Модели представляется только вопрос или проблема.
Например, при решении математической задачи:
Исходный вопрос: "Найдите наименьшее положительное целое число n такое, что n² - 20n + 96 является полным квадратом."
Модели не предоставляются никакие советы, указания или образцы решения. Модель должна самостоятельно сформулировать подход к решению и выполнить все необходимые шаги. • Self-reported
ARC-C
Одноэтапное тестирование, или 0-shot, предполагает предоставление модели подсказки или запроса без каких-либо предварительных примеров или дополнительного контекста, и получение результата. Этот подход оценивает способность модели применять свои предварительно полученные знания к новой задаче без специальной адаптации. 0-shot подход особенно ценен для оценки, насколько хорошо модель может обобщать свои знания в различных контекстах.
Главное преимущество 0-shot тестирования заключается в его простоте и эффективности. Оно устраняет необходимость в разработке специфических примеров для каждой задачи и может дать более реалистичное представление о производительности модели в реальных условиях, где пользователи редко предоставляют обширный контекст. Однако 0-shot подход может не полностью отражать потенциал модели, особенно в сложных или специализированных задачах, где некоторая настройка была бы полезна. • Self-reported
BFCL
Исходный запрос: переведите приведенный ниже текст с английского на русский.
Вывод: (переведенный текст будет здесь)
0-shot означает, что модель пытается выполнить задачу напрямую из указаний в запросе, без дополнительных примеров. Этот подход измеряет способность модели сразу понять задачу без демонстрации того, как она должна быть выполнена.
Противоположностью является few-shot, где мы показываем модели один или несколько примеров выполнения задачи перед тем, как она должна выполнить саму задачу. • Self-reported
Gorilla Benchmark API Bench
0-shot
Этот метод не предоставляет никаких демонстраций или обучающих примеров для выполнения задачи. Вместо этого, модель должна полагаться на знания, полученные во время предварительного обучения, чтобы генерировать решения. • Self-reported
IFEval
# Стандартный
## Что это такое
Стандартное тестирование — самый простой и наименее подробный способ оценить модель. Оно используется, чтобы установить базовые показатели производительности и позволить быстрое сравнение результатов. Стандартное тестирование, как правило, состоит из определенного набора запросов и задач, часто предоставляемых пользователями или исследователями в области тестирования, которые оцениваются на соответствие заранее определенным критериям.
## Когда его использовать
- Когда вам нужно быстро сравнить производительность нескольких моделей для принятия решений.
- Для установления базовых показателей, на основе которых можно проводить более глубокий анализ.
- Когда вы хотите выявить явные проблемы перед более детальной оценкой.
## Плюсы
- Быстрота и простота выполнения.
- Упрощает сравнение различных моделей.
- Позволяет собрать данные о производительности с минимальными затратами.
## Минусы
- Предлагает ограниченное понимание реальных возможностей модели.
- Может дать чрезмерно упрощенное представление о сложных моделях.
- Не выявляет нюансы, которые могут быть критически важны для определенных случаев использования.
## Когда этого недостаточно
Стандартного тестирования недостаточно, когда вам нужно глубокое понимание возможностей модели, особенно при оценке:
- Сложных рассуждений и мыслительных процессов
- Согласованности ответов на разные запросы
- Устойчивости к различным видам атак
- Возможности интерпретации запросов с различными интенциями
- Практических применений в сложных, многогранных задачах
## Типичные методы
- Прямое выполнение стандартных тестов, таких как MMLU, GSM8K, HumanEval
- Запросы с предопределенными ожидаемыми ответами
- Оценка точности выполнения простых инструкций
- Проверка соответствия базовой политике безопасности
## Улучшения
Стандартное тестирование можно улучшить путем:
- Включения более разнообразных задач, охватывающих различные домены и типы навыков
- Добавления более сложных примеров, которые проверяют границы возможностей модели
- Использования автоматических инструментов для оценки, чтобы ускорить процесс
- Отслеживания результатов с течением времени для выявления тен • Self-reported
MBPP EvalPlus
0-shot, base, pass@1 • Self-reported
MMLU (CoT)
0-выстрел, macro_avg/acc • Self-reported
MMLU-Pro
5-shot, CoT, micro_avg/acc_char • Self-reported
Multilingual MGSM (CoT)
0-shot, CoT, em
Пробуем модель в режиме цепочки рассуждений (CoT). Для 0-shot используем указание "решай поэтапно", без каких-либо примеров. Здесь "em" означает "точное соответствие" - проверка выдает ли модель ответ, который в точности совпадает с заданным правильным ответом для данной задачи. Обратите внимание, что в некоторых случаях модель может прийти к правильному заключению, но из-за различий в формате или округлении оценка em может быть строгой. • Self-reported
Multipl-E HumanEval
0-shot, pass@1
AI: Это метод, который измеряет, насколько часто модель может решить задачу с первой попытки без примеров для обучения.
Модель получает задачу и должна предоставить правильный ответ с первой попытки. Для проблемы с однозначным ответом, как в математике, считается, что модель "прошла" задачу, если ее первый ответ верен. Метрика pass@1 измеряет долю задач, которые модель решила правильно с первой попытки.
Термин "0-shot" означает, что модели не предоставляются примеры решения подобных задач. В отличие от few-shot подхода, где модели даются несколько примеров задач с решениями перед тестированием, при 0-shot подходе модель должна полагаться только на знания, полученные во время предварительного обучения.
Метрика pass@1 является строгой мерой оценки, поскольку не позволяет модели делать несколько попыток или исправлять ошибки. Это делает её хорошим индикатором надежности модели для применений, где требуется точность с первой попытки. • Self-reported
Multipl-E MBPP
0-shot, pass@1 • Self-reported
Nexus
0-shot, macro_avg/acc • Self-reported
Лицензия и метаданные
Лицензия
llama_3_1_community_license
Дата анонса
23 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиLlama 3.3 70B Instruct
Meta
70.0B
Лучший скор:0.9 (HumanEval)
Релиз:дек. 2024 г.
Цена:$0.88/1M токенов
Llama 3.1 70B Instruct
Meta
70.0B
Лучший скор:0.9 (ARC)
Релиз:июль 2024 г.
Цена:$0.89/1M токенов
Llama 4 Maverick
Meta
MM400.0B
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.27/1M токенов
Command R+
Cohere
104.0B
Лучший скор:0.8 (MMLU)
Релиз:авг. 2024 г.
Цена:$0.25/1M токенов
DeepSeek-V3
DeepSeek
671.0B
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$0.27/1M токенов
Kimi K2 Instruct
Moonshot AI
1.0T
Лучший скор:0.9 (HumanEval)
Релиз:янв. 2025 г.
Цена:$0.57/1M токенов
Mistral Large 2
Mistral AI
123.0B
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$2.00/1M токенов
DeepSeek-R1
DeepSeek
671.0B
Лучший скор:0.9 (MMLU)
Релиз:янв. 2025 г.
Цена:$7.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.