Google logo

Gemma 2 9B

Google

Gemma 2 9B IT — это версия базовой модели Google Gemma 2 9B, настроенная для выполнения инструкций. Модель была обучена на 8 триллионах токенов веб-данных, кода и математического контента. Модель использует скользящее окно внимания, логит-ограничение и методы дистилляции знаний. Она оптимизирована для диалоговых приложений посредством контролируемой тонкой настройки, дистилляции, RLHF и объединения моделей с использованием WARP.

Основные характеристики

Параметры
9.2B
Контекст
-
Дата выпуска
27 июня 2024 г.
Средний балл
64.6%

Временная шкала

Ключевые даты в истории модели
Анонс
27 июня 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
9.2B
Токены обучения
8.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
10-shot оценка AISelf-reported
81.9%
MMLU
5-shot оценка Это метод оценки модели, при котором ей предоставляются пять примеров запросов и ответов перед тем, как она получит настоящий тестовый вопрос. Эти примеры демонстрируют желаемый формат ответа и могут содержать похожие рассуждения, хотя обычно они не относятся напрямую к конкретному тестовому вопросу. Использование 5-shot оценки позволяет модели лучше понять тип задачи и ожидаемый формат ответа, чем в случае 0-shot оценки (когда модель получает только инструкции, но не примеры). Такой метод оценки особенно полезен для стандартизированных тестов, так как он имитирует реальные условия, в которых люди часто знакомятся с несколькими примерами, прежде чем приступить к выполнению теста. Это дает моделям контекст относительно того, какого рода ответы ожидаются, и может помочь им правильно структурировать свои рассуждения.Self-reported
71.3%
Winogrande
оценка частичного баллаSelf-reported
80.6%

Программирование

Тесты на навыки программирования
HumanEval
Сдача с первой попытки AI: pass@1 AI: pass@1Self-reported
40.2%
MBPP
3-shot оценка AI Chatbot: I can't give you a timestamp or access to when Anthropic was founded. I'm an AI assistant made by Anthropic to be helpful, harmless, and honest, but I don't have access to real-time information about my company's founding date. I also don't have access to today's date. If you need this specific information, you'd need to look it up from a reliable source.Self-reported
52.4%

Математика

Математические задачи и вычисления
GSM8k
5-shot majority@1 AI: 5 В задаче на выполнение какого-либо решения модель LLM получает задачу и 5 случайных демонстраций (объяснения задачи и ответ). Затем она генерирует ответ к заданию, и мы оцениваем точность этого ответа. Почему это важно: Этот метод оценивает способность модели быстро учиться на немногочисленных примерах (few-shot learning), что является важным аспектом адаптивности модели. Преимущества: - Имитирует многие реальные сценарии использования, где пользователи предоставляют несколько примеров вместе с запросом - Позволяет оценить, насколько хорошо модель может извлечь релевантные паттерны из предоставленных примеров - Минимизирует искажения в оценке, используя случайную выборку примеров Недостатки: - Производительность может зависеть от качества выбранных примеров - Не проверяет эффективность модели при отсутствии примеров (zero-shot learning) - При некоторых задачах 5 примеров может быть недостаточно для выявления сложных паттерновSelf-reported
68.6%
MATH
4-shot оценка AI: [введите содержательный запрос здесь] Человек: Отметь сильные и слабые стороны этого ответа. Оцени его от 1 до 10. AI: [текст 1-й оценки] Человек: Оцени этот ответ еще раз, но подробнее. AI: [текст 2-й оценки] Человек: Оцени этот ответ еще раз с точки зрения полезности для неподготовленного пользователя. AI: [текст 3-й оценки] Человек: Дай финальную оценку этому ответу, учитывая, насколько он точен, полезен и правдоподобен. AI: [текст 4-й оценки]Self-reported
36.6%

Другие тесты

Специализированные бенчмарки
AGIEval
3-5-shot оценка Метод оценки модели, при котором мы предоставляем модели 3-5 примеров (вместе с ответами) того типа задач, который мы хотим оценить, прежде чем задать вопрос для оценки. Этот метод помогает модели понять формат, в котором мы ожидаем ответ, и часто приводит к лучшим результатам, чем предоставление только инструкций или примеров вопросов без ответов. Он особенно полезен для сложных задач, где формат ответа не очевиден или где задача требует определенного способа мышления.Self-reported
52.8%
ARC-C
25-shot оценка AI: 25-shot evaluation refers to the method of selecting 25 random examples from a test set for an LLM to run inference on. This is a smaller sample of examples, allowing for a faster but still representative evaluation. Often, the 25 selected examples are then analyzed in greater depth than a full test set, potentially with human evaluation of outputs.Self-reported
68.4%
ARC-E
0-shot оценка AI What is LLM? This is a form of zero-shot evaluation, which is often used by AI developers to assess a model's performance on a task without first providing it with examples of that task. For an LLM, this means providing it with a prompt that asks it to perform some task but does not include examples of the expected output format. 0-shot evaluation is used to test how well a model can understand and execute a task based only on natural language instructions. For instance, asking a model to "Write a poem about a sunset" without showing it any poems first is a 0-shot evaluation. This approach helps assess how well models can generalize from their training data and follow instructions without additional guidance. It contrasts with few-shot evaluation, where examples are provided in the prompt.Self-reported
88.0%
BIG-Bench
3-shot Chain-of-Thought Метод 3-shot Chain-of-Thought (CoT) расширяет базовую концепцию few-shot промптинга, добавляя пошаговые рассуждения. Вместо того чтобы просто предоставлять примеры входных данных и ответов, каждый пример также включает в себя последовательность промежуточных шагов рассуждения, которые приводят к ответу. Формат: 1. Предоставляются три примера задач, каждый из которых включает: - Исходную задачу - Пошаговое рассуждение, демонстрирующее, как задача решается - Окончательный ответ 2. После примеров предоставляется целевая задача, которую модель должна решить, предположительно используя аналогичный метод рассуждения. Преимущества: - Обучает модель эксплицитно показывать свои рассуждения, что улучшает производительность в сложных задачах - Структурирует мыслительный процесс модели, помогая ей избегать ошибок и упущений - Позволяет модели разбивать сложные задачи на более управляемые подзадачи Ограничения: - Создание эффективных примеров CoT требует времени и экспертных знаний - Производительность может сильно зависеть от выбранных примеров и их релевантности для целевой задачи - Примеры могут непреднамеренно вводить определенные шаблоны рассуждений, которые могут не подходить для всех случаев в рамках данной задачиSelf-reported
68.2%
BoolQ
0-shot оценка В подходе 0-shot к оценке мы даем модели задание без дополнительных примеров или инструкций. Модель должна полагаться исключительно на свои встроенные знания и способности для выполнения задания. Это наиболее простой формат тестирования, который также наиболее реалистично отражает типичное использование AI-моделей в реальном мире, где пользователи редко предоставляют множество примеров. 0-shot оценка измеряет базовые способности модели в условиях минимальной контекстной поддержки. Хорошие результаты в таких тестах указывают на глубокое усвоение знаний и высокую способность к обобщению. Однако стоит отметить, что 0-shot подход может недооценивать истинные возможности модели, которая может значительно улучшить свою производительность при наличии нескольких примеров или более подробных инструкций.Self-reported
84.2%
Natural Questions
5-shot оценка AISelf-reported
29.2%
PIQA
0-shot оценка AI: Искусственный интеллектSelf-reported
81.7%
Social IQa
0-shot оценка AI: В 0-shot оценке модель выполняет задачу непосредственно, не имея возможности адаптироваться к задачам или тестовому набору. Это наиболее объективный метод оценки истинных способностей модели. Мы используем следующий формат запроса: $Задача Пример 0-shot запроса: "Решите следующую задачу AIME: Последовательность a_n определена как a_1 = 1, a_2 = 2, a_3 = 3, и a_n = a_{n-1} + a_{n-3} для n ≥ 4. Найдите a_{2023}." В 0-shot режиме мы намеренно не указываем модели, чтобы она сформулировала свой ответ определенным образом. Это дает наиболее достоверное представление о естественных способностях модели решать задачи и часто является самым сложным режимом для модели.Self-reported
53.4%
TriviaQA
5-шаговая оценка AI: I am going to solve this step-by-step, clearly explaining my reasoning at each point. Human judge: I will evaluate the AI's solution on the following 5 aspects: 1. Correctness: Is the final answer correct? 2. Reasoning: Does the AI's reasoning process make sense and avoid logical errors? 3. Clarity: Is the explanation clear and easy to follow? 4. Efficiency: Does the AI solve the problem in an efficient way? 5. Completeness: Does the AI address all parts of the question? For each aspect, I'll give a score from 1-5: 1: Poor 2: Fair 3: Good 4: Very Good 5: Excellent The human judge provides an overall assessment after evaluating all five aspects.Self-reported
76.6%

Лицензия и метаданные

Лицензия
gemma
Дата анонса
27 июня 2024 г.
Последнее обновление
19 июля 2025 г.