Gemma 2 9B
Gemma 2 9B IT — это версия базовой модели Google Gemma 2 9B, настроенная для выполнения инструкций. Модель была обучена на 8 триллионах токенов веб-данных, кода и математического контента. Модель использует скользящее окно внимания, логит-ограничение и методы дистилляции знаний. Она оптимизирована для диалоговых приложений посредством контролируемой тонкой настройки, дистилляции, RLHF и объединения моделей с использованием WARP.
Основные характеристики
Параметры
9.2B
Контекст
-
Дата выпуска
27 июня 2024 г.
Средний балл
64.6%
Временная шкала
Ключевые даты в истории модели
Анонс
27 июня 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
9.2B
Токены обучения
8.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
10-shot оценка
AI • Self-reported
MMLU
5-shot оценка
Это метод оценки модели, при котором ей предоставляются пять примеров запросов и ответов перед тем, как она получит настоящий тестовый вопрос. Эти примеры демонстрируют желаемый формат ответа и могут содержать похожие рассуждения, хотя обычно они не относятся напрямую к конкретному тестовому вопросу. Использование 5-shot оценки позволяет модели лучше понять тип задачи и ожидаемый формат ответа, чем в случае 0-shot оценки (когда модель получает только инструкции, но не примеры).
Такой метод оценки особенно полезен для стандартизированных тестов, так как он имитирует реальные условия, в которых люди часто знакомятся с несколькими примерами, прежде чем приступить к выполнению теста. Это дает моделям контекст относительно того, какого рода ответы ожидаются, и может помочь им правильно структурировать свои рассуждения. • Self-reported
Winogrande
оценка частичного балла • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Сдача с первой попытки
AI: pass@1
AI: pass@1 • Self-reported
MBPP
3-shot оценка
AI
Chatbot: I can't give you a timestamp or access to when Anthropic was founded. I'm an AI assistant made by Anthropic to be helpful, harmless, and honest, but I don't have access to real-time information about my company's founding date. I also don't have access to today's date. If you need this specific information, you'd need to look it up from a reliable source. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
5-shot majority@1
AI: 5
В задаче на выполнение какого-либо решения модель LLM получает задачу и 5 случайных демонстраций (объяснения задачи и ответ). Затем она генерирует ответ к заданию, и мы оцениваем точность этого ответа.
Почему это важно: Этот метод оценивает способность модели быстро учиться на немногочисленных примерах (few-shot learning), что является важным аспектом адаптивности модели.
Преимущества:
- Имитирует многие реальные сценарии использования, где пользователи предоставляют несколько примеров вместе с запросом
- Позволяет оценить, насколько хорошо модель может извлечь релевантные паттерны из предоставленных примеров
- Минимизирует искажения в оценке, используя случайную выборку примеров
Недостатки:
- Производительность может зависеть от качества выбранных примеров
- Не проверяет эффективность модели при отсутствии примеров (zero-shot learning)
- При некоторых задачах 5 примеров может быть недостаточно для выявления сложных паттернов • Self-reported
MATH
4-shot оценка
AI: [введите содержательный запрос здесь]
Человек:
Отметь сильные и слабые стороны этого ответа. Оцени его от 1 до 10.
AI: [текст 1-й оценки]
Человек:
Оцени этот ответ еще раз, но подробнее.
AI: [текст 2-й оценки]
Человек:
Оцени этот ответ еще раз с точки зрения полезности для неподготовленного пользователя.
AI: [текст 3-й оценки]
Человек:
Дай финальную оценку этому ответу, учитывая, насколько он точен, полезен и правдоподобен.
AI: [текст 4-й оценки] • Self-reported
Другие тесты
Специализированные бенчмарки
AGIEval
3-5-shot оценка
Метод оценки модели, при котором мы предоставляем модели 3-5 примеров (вместе с ответами) того типа задач, который мы хотим оценить, прежде чем задать вопрос для оценки.
Этот метод помогает модели понять формат, в котором мы ожидаем ответ, и часто приводит к лучшим результатам, чем предоставление только инструкций или примеров вопросов без ответов. Он особенно полезен для сложных задач, где формат ответа не очевиден или где задача требует определенного способа мышления. • Self-reported
ARC-C
25-shot оценка
AI: 25-shot evaluation refers to the method of selecting 25 random examples from a test set for an LLM to run inference on. This is a smaller sample of examples, allowing for a faster but still representative evaluation. Often, the 25 selected examples are then analyzed in greater depth than a full test set, potentially with human evaluation of outputs. • Self-reported
ARC-E
0-shot оценка
AI
What is LLM? This is a form of zero-shot evaluation, which is often used by AI developers to assess a model's performance on a task without first providing it with examples of that task. For an LLM, this means providing it with a prompt that asks it to perform some task but does not include examples of the expected output format.
0-shot evaluation is used to test how well a model can understand and execute a task based only on natural language instructions. For instance, asking a model to "Write a poem about a sunset" without showing it any poems first is a 0-shot evaluation. This approach helps assess how well models can generalize from their training data and follow instructions without additional guidance. It contrasts with few-shot evaluation, where examples are provided in the prompt. • Self-reported
BIG-Bench
3-shot Chain-of-Thought
Метод 3-shot Chain-of-Thought (CoT) расширяет базовую концепцию few-shot промптинга, добавляя пошаговые рассуждения. Вместо того чтобы просто предоставлять примеры входных данных и ответов, каждый пример также включает в себя последовательность промежуточных шагов рассуждения, которые приводят к ответу.
Формат:
1. Предоставляются три примера задач, каждый из которых включает:
- Исходную задачу
- Пошаговое рассуждение, демонстрирующее, как задача решается
- Окончательный ответ
2. После примеров предоставляется целевая задача, которую модель должна решить, предположительно используя аналогичный метод рассуждения.
Преимущества:
- Обучает модель эксплицитно показывать свои рассуждения, что улучшает производительность в сложных задачах
- Структурирует мыслительный процесс модели, помогая ей избегать ошибок и упущений
- Позволяет модели разбивать сложные задачи на более управляемые подзадачи
Ограничения:
- Создание эффективных примеров CoT требует времени и экспертных знаний
- Производительность может сильно зависеть от выбранных примеров и их релевантности для целевой задачи
- Примеры могут непреднамеренно вводить определенные шаблоны рассуждений, которые могут не подходить для всех случаев в рамках данной задачи • Self-reported
BoolQ
0-shot оценка
В подходе 0-shot к оценке мы даем модели задание без дополнительных примеров или инструкций. Модель должна полагаться исключительно на свои встроенные знания и способности для выполнения задания. Это наиболее простой формат тестирования, который также наиболее реалистично отражает типичное использование AI-моделей в реальном мире, где пользователи редко предоставляют множество примеров.
0-shot оценка измеряет базовые способности модели в условиях минимальной контекстной поддержки. Хорошие результаты в таких тестах указывают на глубокое усвоение знаний и высокую способность к обобщению.
Однако стоит отметить, что 0-shot подход может недооценивать истинные возможности модели, которая может значительно улучшить свою производительность при наличии нескольких примеров или более подробных инструкций. • Self-reported
Natural Questions
5-shot оценка
AI • Self-reported
PIQA
0-shot оценка
AI: Искусственный интеллект • Self-reported
Social IQa
0-shot оценка
AI: В 0-shot оценке модель выполняет задачу непосредственно, не имея возможности адаптироваться к задачам или тестовому набору. Это наиболее объективный метод оценки истинных способностей модели.
Мы используем следующий формат запроса:
$Задача
Пример 0-shot запроса:
"Решите следующую задачу AIME: Последовательность a_n определена как a_1 = 1, a_2 = 2, a_3 = 3, и a_n = a_{n-1} + a_{n-3} для n ≥ 4. Найдите a_{2023}."
В 0-shot режиме мы намеренно не указываем модели, чтобы она сформулировала свой ответ определенным образом. Это дает наиболее достоверное представление о естественных способностях модели решать задачи и часто является самым сложным режимом для модели. • Self-reported
TriviaQA
5-шаговая оценка
AI: I am going to solve this step-by-step, clearly explaining my reasoning at each point.
Human judge: I will evaluate the AI's solution on the following 5 aspects:
1. Correctness: Is the final answer correct?
2. Reasoning: Does the AI's reasoning process make sense and avoid logical errors?
3. Clarity: Is the explanation clear and easy to follow?
4. Efficiency: Does the AI solve the problem in an efficient way?
5. Completeness: Does the AI address all parts of the question?
For each aspect, I'll give a score from 1-5:
1: Poor
2: Fair
3: Good
4: Very Good
5: Excellent
The human judge provides an overall assessment after evaluating all five aspects. • Self-reported
Лицензия и метаданные
Лицензия
gemma
Дата анонса
27 июня 2024 г.
Последнее обновление
19 июля 2025 г.