Gemma 2 9B

Google

Gemma 2 9B IT — это версия базовой модели Google Gemma 2 9B, настроенная для выполнения инструкций. Модель была обучена на 8 триллионах токенов веб-данных, кода и математического контента. Модель использует скользящее окно внимания, логит-ограничение и методы дистилляции знаний. Она оптимизирована для диалоговых приложений посредством контролируемой тонкой настройки, дистилляции, RLHF и объединения моделей с использованием WARP.

Основные характеристики

Параметры

9.2B

Контекст

Дата выпуска

27 июня 2024 г.

Средний балл

64.6%

API документация Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

27 июня 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

9.2B

Токены обучения

8.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

10-shot оценка AI • Self-reported

81.9%

MMLU

5-shot оценка Это метод оценки модели, при котором ей предоставляются пять примеров запросов и ответов перед тем, как она получит настоящий тестовый вопрос. Эти примеры демонстрируют желаемый формат ответа и могут содержать похожие рассуждения, хотя обычно они не относятся напрямую к конкретному тестовому вопросу. Использование 5-shot оценки позволяет модели лучше понять тип задачи и ожидаемый формат ответа, чем в случае 0-shot оценки (когда модель получает только инструкции, но не примеры). Такой метод оценки особенно полезен для стандартизированных тестов, так как он имитирует реальные условия, в которых люди часто знакомятся с несколькими примерами, прежде чем приступить к выполнению теста. Это дает моделям контекст относительно того, какого рода ответы ожидаются, и может помочь им правильно структурировать свои рассуждения. • Self-reported

71.3%

Winogrande

оценка частичного балла • Self-reported

80.6%

Программирование

Тесты на навыки программирования

HumanEval

Сдача с первой попытки AI: pass@1 AI: pass@1 • Self-reported

40.2%

MBPP

3-shot оценка AI Chatbot: I can't give you a timestamp or access to when Anthropic was founded. I'm an AI assistant made by Anthropic to be helpful, harmless, and honest, but I don't have access to real-time information about my company's founding date. I also don't have access to today's date. If you need this specific information, you'd need to look it up from a reliable source. • Self-reported

52.4%

Математика

Математические задачи и вычисления

GSM8k

5-shot majority@1 AI: 5 В задаче на выполнение какого-либо решения модель LLM получает задачу и 5 случайных демонстраций (объяснения задачи и ответ). Затем она генерирует ответ к заданию, и мы оцениваем точность этого ответа. Почему это важно: Этот метод оценивает способность модели быстро учиться на немногочисленных примерах (few-shot learning), что является важным аспектом адаптивности модели. Преимущества: - Имитирует многие реальные сценарии использования, где пользователи предоставляют несколько примеров вместе с запросом - Позволяет оценить, насколько хорошо модель может извлечь релевантные паттерны из предоставленных примеров - Минимизирует искажения в оценке, используя случайную выборку примеров Недостатки: - Производительность может зависеть от качества выбранных примеров - Не проверяет эффективность модели при отсутствии примеров (zero-shot learning) - При некоторых задачах 5 примеров может быть недостаточно для выявления сложных паттернов • Self-reported

68.6%

MATH

4-shot оценка AI: [введите содержательный запрос здесь] Человек: Отметь сильные и слабые стороны этого ответа. Оцени его от 1 до 10. AI: [текст 1-й оценки] Человек: Оцени этот ответ еще раз, но подробнее. AI: [текст 2-й оценки] Человек: Оцени этот ответ еще раз с точки зрения полезности для неподготовленного пользователя. AI: [текст 3-й оценки] Человек: Дай финальную оценку этому ответу, учитывая, насколько он точен, полезен и правдоподобен. AI: [текст 4-й оценки] • Self-reported

36.6%

Другие тесты

Специализированные бенчмарки

AGIEval

3-5-shot оценка Метод оценки модели, при котором мы предоставляем модели 3-5 примеров (вместе с ответами) того типа задач, который мы хотим оценить, прежде чем задать вопрос для оценки. Этот метод помогает модели понять формат, в котором мы ожидаем ответ, и часто приводит к лучшим результатам, чем предоставление только инструкций или примеров вопросов без ответов. Он особенно полезен для сложных задач, где формат ответа не очевиден или где задача требует определенного способа мышления. • Self-reported

52.8%

ARC-C

25-shot оценка AI: 25-shot evaluation refers to the method of selecting 25 random examples from a test set for an LLM to run inference on. This is a smaller sample of examples, allowing for a faster but still representative evaluation. Often, the 25 selected examples are then analyzed in greater depth than a full test set, potentially with human evaluation of outputs. • Self-reported

68.4%

ARC-E

0-shot оценка AI What is LLM? This is a form of zero-shot evaluation, which is often used by AI developers to assess a model's performance on a task without first providing it with examples of that task. For an LLM, this means providing it with a prompt that asks it to perform some task but does not include examples of the expected output format. 0-shot evaluation is used to test how well a model can understand and execute a task based only on natural language instructions. For instance, asking a model to "Write a poem about a sunset" without showing it any poems first is a 0-shot evaluation. This approach helps assess how well models can generalize from their training data and follow instructions without additional guidance. It contrasts with few-shot evaluation, where examples are provided in the prompt. • Self-reported

88.0%

BIG-Bench

3-shot Chain-of-Thought Метод 3-shot Chain-of-Thought (CoT) расширяет базовую концепцию few-shot промптинга, добавляя пошаговые рассуждения. Вместо того чтобы просто предоставлять примеры входных данных и ответов, каждый пример также включает в себя последовательность промежуточных шагов рассуждения, которые приводят к ответу. Формат: 1. Предоставляются три примера задач, каждый из которых включает: - Исходную задачу - Пошаговое рассуждение, демонстрирующее, как задача решается - Окончательный ответ 2. После примеров предоставляется целевая задача, которую модель должна решить, предположительно используя аналогичный метод рассуждения. Преимущества: - Обучает модель эксплицитно показывать свои рассуждения, что улучшает производительность в сложных задачах - Структурирует мыслительный процесс модели, помогая ей избегать ошибок и упущений - Позволяет модели разбивать сложные задачи на более управляемые подзадачи Ограничения: - Создание эффективных примеров CoT требует времени и экспертных знаний - Производительность может сильно зависеть от выбранных примеров и их релевантности для целевой задачи - Примеры могут непреднамеренно вводить определенные шаблоны рассуждений, которые могут не подходить для всех случаев в рамках данной задачи • Self-reported

68.2%

BoolQ

0-shot оценка В подходе 0-shot к оценке мы даем модели задание без дополнительных примеров или инструкций. Модель должна полагаться исключительно на свои встроенные знания и способности для выполнения задания. Это наиболее простой формат тестирования, который также наиболее реалистично отражает типичное использование AI-моделей в реальном мире, где пользователи редко предоставляют множество примеров. 0-shot оценка измеряет базовые способности модели в условиях минимальной контекстной поддержки. Хорошие результаты в таких тестах указывают на глубокое усвоение знаний и высокую способность к обобщению. Однако стоит отметить, что 0-shot подход может недооценивать истинные возможности модели, которая может значительно улучшить свою производительность при наличии нескольких примеров или более подробных инструкций. • Self-reported

84.2%

Natural Questions

5-shot оценка AI • Self-reported

29.2%

PIQA

0-shot оценка AI: Искусственный интеллект • Self-reported

81.7%

Social IQa

0-shot оценка AI: В 0-shot оценке модель выполняет задачу непосредственно, не имея возможности адаптироваться к задачам или тестовому набору. Это наиболее объективный метод оценки истинных способностей модели. Мы используем следующий формат запроса: $Задача Пример 0-shot запроса: "Решите следующую задачу AIME: Последовательность a_n определена как a_1 = 1, a_2 = 2, a_3 = 3, и a_n = a_{n-1} + a_{n-3} для n ≥ 4. Найдите a_{2023}." В 0-shot режиме мы намеренно не указываем модели, чтобы она сформулировала свой ответ определенным образом. Это дает наиболее достоверное представление о естественных способностях модели решать задачи и часто является самым сложным режимом для модели. • Self-reported

53.4%

TriviaQA

5-шаговая оценка AI: I am going to solve this step-by-step, clearly explaining my reasoning at each point. Human judge: I will evaluate the AI's solution on the following 5 aspects: 1. Correctness: Is the final answer correct? 2. Reasoning: Does the AI's reasoning process make sense and avoid logical errors? 3. Clarity: Is the explanation clear and easy to follow? 4. Efficiency: Does the AI solve the problem in an efficient way? 5. Completeness: Does the AI address all parts of the question? For each aspect, I'll give a score from 1-5: 1: Poor 2: Fair 3: Good 4: Very Good 5: Excellent The human judge provides an overall assessment after evaluating all five aspects. • Self-reported

76.6%

Лицензия и метаданные

Лицензия

gemma

Дата анонса

27 июня 2024 г.

Последнее обновление

19 июля 2025 г.