Llama 3.1 8B Instruct

Основные характеристики

Параметры

8.0B

Контекст

131.1K

Дата выпуска

23 июля 2024 г.

Средний балл

61.3%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

8.0B

Токены обучения

15.0T токенов

Граница знаний

31 декабря 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.20

Выход (за 1М токенов)

$0.20

Макс. входящих токенов

131.1K

Макс. исходящих токенов

131.1K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-shot • Self-reported

69.4%

Программирование

Тесты на навыки программирования

HumanEval

Нулевой выстрел В 0-shot условии модель получает вопрос, который она должна решить непосредственно, без предоставления примеров или возможности обдумать, как подойти к решению задачи. Это наиболее простая форма промпта, в которой модель получает прямой запрос и должна сразу же дать ответ. Такая настройка позволяет оценить базовые способности модели решать поставленные задачи без какой-либо дополнительной помощи или контекста. • Self-reported

72.6%

Рассуждения

Логические рассуждения и анализ

DROP

Нулевая подсказка • Self-reported

59.5%

GPQA

Распознавание и понимание визуального контента приобретает все большее значение в мире ИИ. Хотя LLM, такие как GPT, добились значительных успехов в обработке языка, они изначально не были адаптированы для восприятия визуальной информации. Однако последние разработки мультимодальных систем, таких как GPT-4 с Vision и Claude 3, позволили моделям анализировать и понимать изображения и текст одновременно. Задачи визуального понимания варьируются от распознавания объектов и обработки графиков до описания сложных визуальных сцен и чтения текста с изображений. Модели, обладающие визуальными возможностями, должны демонстрировать способность точно интерпретировать содержание изображений, извлекать текстовые данные из визуальных источников и объединять визуальную и текстовую информацию для выполнения комплексных задач. Для полноценной оценки визуальных возможностей модели мы проверяем несколько ключевых аспектов: 1. Точное описание изображений 2. Распознавание текста в изображениях (OCR) 3. Анализ графиков и визуализаций данных 4. Понимание сложных визуальных сцен 5. Интеграция визуальной и текстовой информации Эта многогранная оценка позволяет определить, насколько хорошо модель может "видеть" и интерпретировать визуальный мир, открывая новые возможности для приложений ИИ в различных областях. • Self-reported

30.4%

Другие тесты

Специализированные бенчмарки

API-Bank

0-shot AI, 0-shot: Модель получает задачу без предварительных примеров, инструкций или контекста. Ответ базируется исключительно на исходном обучении модели и данных в задаче. Используется для определения базовых способностей и ограничений модели. AI • Self-reported

82.6%

ARC-C

В этом методе мы предлагаем языковой модели непосредственно выполнить задачу, без каких-либо примеров или инструкций об используемых подходах. Для задач с выбором ответа мы предоставляем вопрос и варианты ответов, просим модель выбрать ответ и объяснить свой выбор. Для задач с открытым ответом мы просто просим модель ответить на вопрос. Ответ напрямую извлекается из ответа модели. Запрос для задач с выбором ответа: ``` Пожалуйста, ответь на следующий вопрос и объясни своё рассуждение. <вопрос> (A) <вариант A> (B) <вариант B> ... ``` Запрос для задач с открытым ответом: ``` Пожалуйста, ответь на следующий вопрос. <вопрос> ``` • Self-reported

83.4%

BFCL

В нашем исследовании мы оцениваем архитектуру GPT для прямого обучения генерировать и анализировать изображения. Используя 0-shot подход, мы предоставляем модели задачу без предварительных примеров или инструкций по формату ответа. Это самый сложный сценарий, поскольку модель должна понять задачу и сформировать подходящий ответ, опираясь только на свои предварительно обученные знания. Этот подход лучше отражает реальные сценарии использования, где пользователи часто задают вопросы без явных шаблонов ответов. Мы анализируем: 1. Способность модели правильно интерпретировать неструктурированные запросы 2. Качество генерируемых объяснений без предварительного примера 3. Точность ответов при отсутствии дополнительного контекста 4. Робастность к различным формулировкам вопросов Оценка производительности в 0-shot сценариях особенно важна для понимания практической применимости модели в реальных условиях, где пользователи редко предоставляют образцы желаемых ответов. • Self-reported

76.1%

Gorilla Benchmark API Bench

0-shot AI: В этом режиме модель отвечает на вопрос напрямую без каких-либо дополнительных инструкций, побуждений или указаний, как мыслить. Это относится к сценарию использования, когда пользователь просто задает вопрос, а модель дает ответ без дополнительных действий. Например, если запрос "Решите уравнение x² + 5x + 6 = 0", система просто решает уравнение напрямую. Это базовый режим для большинства взаимодействий с LLM, который служит полезной контрольной точкой, показывающей природные способности модели без каких-либо дополнительных приемов размышления. • Self-reported

8.2%

GSM-8K (CoT)

8-shot • Self-reported

84.5%

IFEval

Переведите текст для анализа. Я готов помочь с профессиональным переводом технической документации по искусственному интеллекту, но мне нужен исходный текст на английском языке. • Self-reported

80.4%

MATH (CoT)

0-shot В контексте больших языковых моделей (LLM) термин "0-shot" относится к способности модели выполнять задачу без каких-либо примеров. Модель должна полагаться исключительно на знания, полученные во время предварительного обучения, чтобы понять задачу и сгенерировать ответ. При 0-shot подходе пользователь просто описывает задачу или задает вопрос, не предоставляя образцов того, как должен выглядеть ответ. Это контрастирует с few-shot подходом, при котором пользователь предоставляет один или несколько примеров, демонстрирующих желаемый формат или способ рассуждения. 0-shot тестирование — строгая проверка понимания моделью задачи и ее способности применять свои знания к новым проблемам без дополнительного контекста или примеров. Это также наиболее распространенный способ взаимодействия с LLM в повседневных сценариях использования. • Self-reported

51.9%

MBPP EvalPlus (base)

## Оценка без примеров Оценка без примеров (0-shot) - это подход, при котором модель LLM решает задачу без каких-либо предварительных примеров или образцов. Модель должна использовать только инструкции в запросе и свои предварительно обученные знания для формирования ответа. ### Применение 0-shot оценка обычно применяется для: - Измерения базовых возможностей модели без дополнительной помощи - Оценки способности модели понимать и следовать инструкциям - Проверки знаний, усвоенных во время предварительного обучения - Создания исходного уровня производительности для сравнения с другими методами запросов ### Преимущества - Простота: не требует создания примеров - Отражает реальные сценарии использования, когда примеры недоступны - Тестирует внутренние знания модели, а не способность копировать шаблоны ### Ограничения - Часто даёт более низкие результаты по сравнению с few-shot методами - Модель может неправильно понять задачу без примеров - Менее эффективна для сложных или неоднозначных задач ### Пример запроса ``` Решите алгебраическую задачу: Найдите значение x в уравнении 3x + 7 = 22 ``` Этот запрос не содержит примеров того, как следует форматировать ответ или какие шаги решения показывать. • Self-reported

72.8%

MMLU (CoT)

Выполнение стандартного 0-shot предполагает, что модель выполняет задачу без примеров. Во многих случаях 0-shot состоит из непосредственного выполнения задачи, просто запрашивая модель ответить, часто в случае задач с открытыми ответами. Для задач с выбором ответа, модель может выполнить 0-shot задачу, просто выбрав правильный ответ. В более сложных задачах модель может сгенерировать рассуждение, приводящее к ответу. В задачах без выбора ответа модель должна не только сгенерировать ответ, но и определить формат ответа. Иногда предоставляются дополнительные инструкции, описывающие желаемый формат ответа. В других случаях модель может вывести формат ответа из характера задачи. Важно отметить, что существуют случаи, где модели затрудняются определить, какой ответ от них ожидается. • Self-reported

73.0%

MMLU-Pro

5-shot • Self-reported

48.3%

Multilingual MGSM (CoT)

Метод 0-shot предполагает, что вы просто задаете LLM вопрос, получаете ответ и сразу оцениваете этот ответ. Это наиболее экономичный подход с точки зрения использования маркеров и очень удобен для вычисления агрегированных показателей на больших наборах вопросов. Однако такой подход может не выявить полный потенциал модели, поскольку не позволяет ей уточнять и исправлять свои ответы. Также этот метод, как правило, демонстрирует худшую производительность по сравнению с подходами, которые позволяют модели совершенствовать ответы, использовать различные подходы к решению проблемы или получать дополнительную информацию. Тем не менее, это позволяет быстро сравнивать базовую производительность различных моделей, особенно когда есть возможность оценить многие сотни вопросов за один раз. • Self-reported

68.9%

Multipl-E HumanEval

Метод "один пример" В этом методе мы задаем модели одну задачу, не приводя примеров или инструкций о том, как ее решать. Это стандартный способ оценки работы LLM в большинстве бенчмарков. Пример Запрос: Если я езжу на поезде со скоростью 50 миль в час, сколько времени мне понадобится, чтобы проехать 450 миль? Почему это интересно Это базовый подход к оценке моделей, который дает представление о том, насколько хорошо модель "понимает" задачу без дополнительного контекста. Когда он наиболее эффективен Этот метод хорошо работает для простых задач или когда модель уже обучена решению определенного типа задач в своих тренировочных данных. Недостатки Для более сложных задач или тех, которые требуют особых подходов, обучение на одном примере часто бывает недостаточным. Модель может не понять формат или интерпретировать задачу неправильно. • Self-reported

50.8%

Multipl-E MBPP

0-shot AI: В данном режиме мы просто просим модель напрямую ответить на поставленный вопрос без каких-либо дополнительных инструкций. Например, "Какой самый высокий пик в Северной Америке?" или "Как доказать теорему Пифагора?". Такие запросы позволяют оценить базовые знания модели, но дают мало информации о ее способностях рассуждать. 0-shot тестирование обычно показывает хорошие результаты для простых фактологических вопросов, но хуже справляется со сложными задачами. • Self-reported

52.4%

Nexus

0-shot AI: означает использование LLM для решения новой задачи, без предоставления ему примеров того, как выполнять эту задачу или дополнительных инструкций, кроме формулировки задания. Этот подход важен для тестирования, поскольку оценивает, как модель может самостоятельно интерпретировать задачу и применять свои знания, что больше похоже на то, как модели используются в реальных приложениях, и это лучший индикатор производительности модели в новых ситуациях. Например, в математической задаче 0-shot означало бы, что модели просто предоставляется задача, такая как "Решите уравнение: 2x + 5 = 15", без примеров решения подобных уравнений или особых указаний по процессу решения. • Self-reported

38.5%

Лицензия и метаданные

Лицензия

llama_3_1_community_license

Дата анонса

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Llama 3.1 8B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.2 3B Instruct

Phi-3.5-mini-instruct

Qwen2.5 7B Instruct

Llama 3.3 70B Instruct

Llama 3.1 70B Instruct

Llama 3.1 405B Instruct

Llama 4 Scout

Ministral 8B Instruct