Основные характеристики
Параметры
8.0B
Контекст
131.1K
Дата выпуска
23 июля 2024 г.
Средний балл
61.3%
Временная шкала
Ключевые даты в истории модели
Анонс
23 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
8.0B
Токены обучения
15.0T токенов
Граница знаний
31 декабря 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.20
Выход (за 1М токенов)
$0.20
Макс. входящих токенов
131.1K
Макс. исходящих токенов
131.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
5-shot • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Нулевой выстрел
В 0-shot условии модель получает вопрос, который она должна решить непосредственно, без предоставления примеров или возможности обдумать, как подойти к решению задачи. Это наиболее простая форма промпта, в которой модель получает прямой запрос и должна сразу же дать ответ. Такая настройка позволяет оценить базовые способности модели решать поставленные задачи без какой-либо дополнительной помощи или контекста. • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
Нулевая подсказка • Self-reported
GPQA
Распознавание и понимание визуального контента приобретает все большее значение в мире ИИ. Хотя LLM, такие как GPT, добились значительных успехов в обработке языка, они изначально не были адаптированы для восприятия визуальной информации. Однако последние разработки мультимодальных систем, таких как GPT-4 с Vision и Claude 3, позволили моделям анализировать и понимать изображения и текст одновременно.
Задачи визуального понимания варьируются от распознавания объектов и обработки графиков до описания сложных визуальных сцен и чтения текста с изображений. Модели, обладающие визуальными возможностями, должны демонстрировать способность точно интерпретировать содержание изображений, извлекать текстовые данные из визуальных источников и объединять визуальную и текстовую информацию для выполнения комплексных задач.
Для полноценной оценки визуальных возможностей модели мы проверяем несколько ключевых аспектов:
1. Точное описание изображений
2. Распознавание текста в изображениях (OCR)
3. Анализ графиков и визуализаций данных
4. Понимание сложных визуальных сцен
5. Интеграция визуальной и текстовой информации
Эта многогранная оценка позволяет определить, насколько хорошо модель может "видеть" и интерпретировать визуальный мир, открывая новые возможности для приложений ИИ в различных областях. • Self-reported
Другие тесты
Специализированные бенчмарки
API-Bank
0-shot
AI, 0-shot: Модель получает задачу без предварительных примеров, инструкций или контекста. Ответ базируется исключительно на исходном обучении модели и данных в задаче. Используется для определения базовых способностей и ограничений модели.
AI • Self-reported
ARC-C
В этом методе мы предлагаем языковой модели непосредственно выполнить задачу, без каких-либо примеров или инструкций об используемых подходах. Для задач с выбором ответа мы предоставляем вопрос и варианты ответов, просим модель выбрать ответ и объяснить свой выбор. Для задач с открытым ответом мы просто просим модель ответить на вопрос. Ответ напрямую извлекается из ответа модели.
Запрос для задач с выбором ответа:
```
Пожалуйста, ответь на следующий вопрос и объясни своё рассуждение.
<вопрос>
(A) <вариант A>
(B) <вариант B>
...
```
Запрос для задач с открытым ответом:
```
Пожалуйста, ответь на следующий вопрос.
<вопрос>
``` • Self-reported
BFCL
В нашем исследовании мы оцениваем архитектуру GPT для прямого обучения генерировать и анализировать изображения. Используя 0-shot подход, мы предоставляем модели задачу без предварительных примеров или инструкций по формату ответа.
Это самый сложный сценарий, поскольку модель должна понять задачу и сформировать подходящий ответ, опираясь только на свои предварительно обученные знания. Этот подход лучше отражает реальные сценарии использования, где пользователи часто задают вопросы без явных шаблонов ответов.
Мы анализируем:
1. Способность модели правильно интерпретировать неструктурированные запросы
2. Качество генерируемых объяснений без предварительного примера
3. Точность ответов при отсутствии дополнительного контекста
4. Робастность к различным формулировкам вопросов
Оценка производительности в 0-shot сценариях особенно важна для понимания практической применимости модели в реальных условиях, где пользователи редко предоставляют образцы желаемых ответов. • Self-reported
Gorilla Benchmark API Bench
0-shot
AI: В этом режиме модель отвечает на вопрос напрямую без каких-либо дополнительных инструкций, побуждений или указаний, как мыслить. Это относится к сценарию использования, когда пользователь просто задает вопрос, а модель дает ответ без дополнительных действий. Например, если запрос "Решите уравнение x² + 5x + 6 = 0", система просто решает уравнение напрямую. Это базовый режим для большинства взаимодействий с LLM, который служит полезной контрольной точкой, показывающей природные способности модели без каких-либо дополнительных приемов размышления. • Self-reported
GSM-8K (CoT)
8-shot • Self-reported
IFEval
Переведите текст для анализа. Я готов помочь с профессиональным переводом технической документации по искусственному интеллекту, но мне нужен исходный текст на английском языке. • Self-reported
MATH (CoT)
0-shot
В контексте больших языковых моделей (LLM) термин "0-shot" относится к способности модели выполнять задачу без каких-либо примеров. Модель должна полагаться исключительно на знания, полученные во время предварительного обучения, чтобы понять задачу и сгенерировать ответ.
При 0-shot подходе пользователь просто описывает задачу или задает вопрос, не предоставляя образцов того, как должен выглядеть ответ. Это контрастирует с few-shot подходом, при котором пользователь предоставляет один или несколько примеров, демонстрирующих желаемый формат или способ рассуждения.
0-shot тестирование — строгая проверка понимания моделью задачи и ее способности применять свои знания к новым проблемам без дополнительного контекста или примеров. Это также наиболее распространенный способ взаимодействия с LLM в повседневных сценариях использования. • Self-reported
MBPP EvalPlus (base)
## Оценка без примеров
Оценка без примеров (0-shot) - это подход, при котором модель LLM решает задачу без каких-либо предварительных примеров или образцов. Модель должна использовать только инструкции в запросе и свои предварительно обученные знания для формирования ответа.
### Применение
0-shot оценка обычно применяется для:
- Измерения базовых возможностей модели без дополнительной помощи
- Оценки способности модели понимать и следовать инструкциям
- Проверки знаний, усвоенных во время предварительного обучения
- Создания исходного уровня производительности для сравнения с другими методами запросов
### Преимущества
- Простота: не требует создания примеров
- Отражает реальные сценарии использования, когда примеры недоступны
- Тестирует внутренние знания модели, а не способность копировать шаблоны
### Ограничения
- Часто даёт более низкие результаты по сравнению с few-shot методами
- Модель может неправильно понять задачу без примеров
- Менее эффективна для сложных или неоднозначных задач
### Пример запроса
```
Решите алгебраическую задачу:
Найдите значение x в уравнении 3x + 7 = 22
```
Этот запрос не содержит примеров того, как следует форматировать ответ или какие шаги решения показывать. • Self-reported
MMLU (CoT)
Выполнение стандартного 0-shot предполагает, что модель выполняет задачу без примеров. Во многих случаях 0-shot состоит из непосредственного выполнения задачи, просто запрашивая модель ответить, часто в случае задач с открытыми ответами. Для задач с выбором ответа, модель может выполнить 0-shot задачу, просто выбрав правильный ответ. В более сложных задачах модель может сгенерировать рассуждение, приводящее к ответу.
В задачах без выбора ответа модель должна не только сгенерировать ответ, но и определить формат ответа. Иногда предоставляются дополнительные инструкции, описывающие желаемый формат ответа. В других случаях модель может вывести формат ответа из характера задачи. Важно отметить, что существуют случаи, где модели затрудняются определить, какой ответ от них ожидается. • Self-reported
MMLU-Pro
5-shot • Self-reported
Multilingual MGSM (CoT)
Метод 0-shot предполагает, что вы просто задаете LLM вопрос, получаете ответ и сразу оцениваете этот ответ. Это наиболее экономичный подход с точки зрения использования маркеров и очень удобен для вычисления агрегированных показателей на больших наборах вопросов. Однако такой подход может не выявить полный потенциал модели, поскольку не позволяет ей уточнять и исправлять свои ответы.
Также этот метод, как правило, демонстрирует худшую производительность по сравнению с подходами, которые позволяют модели совершенствовать ответы, использовать различные подходы к решению проблемы или получать дополнительную информацию. Тем не менее, это позволяет быстро сравнивать базовую производительность различных моделей, особенно когда есть возможность оценить многие сотни вопросов за один раз. • Self-reported
Multipl-E HumanEval
Метод "один пример"
В этом методе мы задаем модели одну задачу, не приводя примеров или инструкций о том, как ее решать. Это стандартный способ оценки работы LLM в большинстве бенчмарков.
Пример
Запрос: Если я езжу на поезде со скоростью 50 миль в час, сколько времени мне понадобится, чтобы проехать 450 миль?
Почему это интересно
Это базовый подход к оценке моделей, который дает представление о том, насколько хорошо модель "понимает" задачу без дополнительного контекста.
Когда он наиболее эффективен
Этот метод хорошо работает для простых задач или когда модель уже обучена решению определенного типа задач в своих тренировочных данных.
Недостатки
Для более сложных задач или тех, которые требуют особых подходов, обучение на одном примере часто бывает недостаточным. Модель может не понять формат или интерпретировать задачу неправильно. • Self-reported
Multipl-E MBPP
0-shot
AI: В данном режиме мы просто просим модель напрямую ответить на поставленный вопрос без каких-либо дополнительных инструкций. Например, "Какой самый высокий пик в Северной Америке?" или "Как доказать теорему Пифагора?". Такие запросы позволяют оценить базовые знания модели, но дают мало информации о ее способностях рассуждать. 0-shot тестирование обычно показывает хорошие результаты для простых фактологических вопросов, но хуже справляется со сложными задачами. • Self-reported
Nexus
0-shot
AI: означает использование LLM для решения новой задачи, без предоставления ему примеров того, как выполнять эту задачу или дополнительных инструкций, кроме формулировки задания. Этот подход важен для тестирования, поскольку оценивает, как модель может самостоятельно интерпретировать задачу и применять свои знания, что больше похоже на то, как модели используются в реальных приложениях, и это лучший индикатор производительности модели в новых ситуациях.
Например, в математической задаче 0-shot означало бы, что модели просто предоставляется задача, такая как "Решите уравнение: 2x + 5 = 15", без примеров решения подобных уравнений или особых указаний по процессу решения. • Self-reported
Лицензия и метаданные
Лицензия
llama_3_1_community_license
Дата анонса
23 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиLlama 3.2 3B Instruct
Meta
3.2B
Лучший скор:0.8 (ARC)
Релиз:сент. 2024 г.
Цена:$0.01/1M токенов
Phi-3.5-mini-instruct
Microsoft
3.8B
Лучший скор:0.8 (ARC)
Релиз:авг. 2024 г.
Цена:$0.10/1M токенов
Qwen2.5 7B Instruct
Alibaba
7.6B
Лучший скор:0.8 (HumanEval)
Релиз:сент. 2024 г.
Цена:$0.30/1M токенов
Llama 3.3 70B Instruct
Meta
70.0B
Лучший скор:0.9 (HumanEval)
Релиз:дек. 2024 г.
Цена:$0.88/1M токенов
Llama 3.1 70B Instruct
Meta
70.0B
Лучший скор:0.9 (ARC)
Релиз:июль 2024 г.
Цена:$0.89/1M токенов
Llama 3.1 405B Instruct
Meta
405.0B
Лучший скор:1.0 (ARC)
Релиз:июль 2024 г.
Цена:$3.50/1M токенов
Llama 4 Scout
Meta
MM109.0B
Лучший скор:0.8 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.18/1M токенов
Ministral 8B Instruct
Mistral AI
8.0B
Лучший скор:0.7 (ARC)
Релиз:окт. 2024 г.
Цена:$0.10/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.