Gemma 2 27B

Google

Gemma 2 27B IT — это версия передовой открытой языковой модели Google, настроенная для следования инструкциям. Созданная на основе тех же исследований и технологий, что и Gemini, она оптимизирована для диалоговых приложений через контролируемую тонкую настройку, дистилляцию из более крупных моделей и RLHF. Модель превосходно справляется с задачами генерации текста, включая ответы на вопросы, суммаризацию и рассуждения.

Основные характеристики

Параметры

27.2B

Контекст

Дата выпуска

27 июня 2024 г.

Средний балл

69.1%

API документация Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

27 июня 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

27.2B

Токены обучения

13.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

10-shot Этот метод аналогичен 10-shot (10-примерному) изучению. При 10-shot мы предоставляем модели 10 образцов обучения, чтобы показать, как выглядит решение для аналогичных задач. Например, для анализа математических задач мы можем предоставить 10 примеров математических задач с полными, пошаговыми решениями. Так модель получает контекст того, как следует форматировать и структурировать решение. Эта техника особенно полезна, когда: • Мы хотим, чтобы модель следовала определенному формату ответа • Нам нужно показать образец рассуждений для сложных задач • Задача имеет специфическую структуру, которую лучше продемонстрировать 10-shot является мощным инструментом, поскольку предоставляет модели богатый контекст, но также требует значительного количества токенов, что может ограничивать доступное пространство для задачи и ответа. • Self-reported

86.4%

MMLU

5-shot, top-1 AI: я сгенерирую ответ на запрос в формате 5-shot, top-1. Для этого: 1. Создам 5 независимых ответов на заданный вопрос 2. Из этих 5 ответов выберу 1 лучший 3. Представлю только этот лучший ответ в качестве финального решения Этот метод позволяет мне: - Рассмотреть несколько возможных подходов к проблеме - Внутренне сравнить разные решения - Выбрать решение с наивысшим качеством - Предоставить только одно финальное решение без промежуточных рассуждений Метод основан на исследованиях, показывающих, что генерация нескольких решений и выбор лучшего из них может значительно улучшить качество ответов для сложных задач. • Self-reported

75.2%

Winogrande

5-shot • Self-reported

83.7%

Программирование

Тесты на навыки программирования

HumanEval

pass@1 Успех с первой попытки AI: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. We define the "pass@1" metric as the probability that a model will solve a problem on a single attempt. This is the most realistic measure of performance for real-world applications where users typically expect correct answers on the first try. Pass@1 is computed by evaluating a model on a single attempt at each problem in a benchmark and measuring the fraction of problems solved correctly. Unlike metrics that allow multiple attempts (e.g., pass@k, which measures whether any of k samples contains the correct answer), pass@1 does not permit the model to generate multiple outputs and select the best one. This better simulates real-world use cases where users receive a single response. • Self-reported

51.8%

MBPP

3-shot • Self-reported

62.6%

Математика

Математические задачи и вычисления

GSM8k

5-shot, maj@1 В этой работе мы используем 5-shot, maj@1 как один из основных методов оценки. При 5-shot, maj@1 каждый тестовый пример оценивается пять раз, и мы берем самый популярный ответ. Это значит, что для каждого вопроса мы генерируем пять ответов и затем используем режим ответов (наиболее часто встречающийся ответ) в качестве финального предсказания модели. В случае ничьей мы выбираем первый из ответов, участвующих в ничьей. В основном мы используем этот метод для тестов с множественным выбором, где наиболее распространенный выбор является естественным способом агрегации результатов. Мы обнаружили, что такое мажоритарное голосование повышает надежность наших оценок на несколько процентных пунктов по сравнению с однократной оценкой (1-shot). • Self-reported

74.0%

MATH

Обработка 4 примеров AI: 4-shot evaluation is a framework for understanding how well a large language model (LLM) solves problems. In this method, the LLM sees four examples of a particular problem, each with a solution, before being asked to solve a similar problem. The method is designed to test the model's ability to: 1. Recognize patterns from the example problems 2. Extract a general problem-solving approach 3. Apply that approach to a new problem instance This framework helps us understand the in-context learning capabilities of modern LLMs. It differs from zero-shot (no examples) and few-shot (1-3 examples) by providing enough examples to establish a robust pattern, while still testing the model's ability to generalize rather than memorize. 4-shot evaluation is particularly useful for assessing performance on: - Mathematical reasoning - Coding challenges - Logical puzzles - Rule-based games When designing 4-shot evaluations, researchers carefully select examples that: - Cover key aspects of the problem domain - Demonstrate the correct solution process - Vary in their specifics to encourage abstraction This approach provides a standardized way to compare different models' problem-solving abilities and has become a common benchmark in AI evaluation. • Self-reported

42.3%

Другие тесты

Специализированные бенчмарки

AGIEval

3-5-shot Эта методология классифицирует примеры по количеству дополнительных контекстных примеров, включенных в промпт. Трехшотный пример имеет три дополнительных примера, а пятишотный — пять. Примеры могут варьироваться в зависимости от бенчмарка, но в большинстве случаев контекстные примеры представляют собой задачи того же типа, что и целевая задача, которые можно увидеть в обучающем наборе. Например, задачи GPQA с контекстными примерами — это вопросы и ответы того же формата, но не обязательно по той же теме, что и вопрос, на который нужно ответить. Обычно эти примеры выбираются из вопросов того же уровня сложности и с теми же типами ответов (да/нет, множественный выбор и т.д.), что и текущий вопрос. Это особенно полезно для оценки модели в формате "few-shot learning", что важно для приложений, где модель должна быстро адаптироваться к новым типам задач с минимальным количеством примеров. • Self-reported

55.1%

ARC-C

25-shot • Self-reported

71.4%

ARC-E

## 0-shot В этом методе модель оценивается только на основе её прямых ответов на задачи, без каких-либо примеров или дополнительного контекста. Мы инструктируем модель решить проблему, оценивая только качество её ответа, без предоставления ей примеров решения похожих задач. Сильные стороны: Это простейший способ проверки способностей модели, наиболее близкий к тому, как она может использоваться пользователями в реальных условиях. 0-shot тестирование также является самым строгим тестом способностей модели, поскольку она не получает помощи в виде примеров. Слабые стороны: Модель может понимать задачу не так, как предполагалось, или не знать конкретного формата, в котором должен быть представлен ответ. • Self-reported

88.6%

BIG-Bench

Метод "3-shot, CoT" (3-примерный, с цепочкой рассуждений) основан на концепции инициирования вывода модели несколькими примерами, сопровождаемыми подробными объяснениями шагов решения — так называемой цепочкой рассуждений (Chain-of-Thought). Такой подход позволяет модели увидеть и воспроизвести структуру логических рассуждений, необходимую для решения сложных задач. В этом методе используются три (3) тщательно подобранных примера, демонстрирующих процесс пошагового решения задачи. Каждый пример сопровождается развернутыми рассуждениями, показывающими ход мысли для достижения ответа. Это помогает модели настроиться на требуемый режим мышления и применить аналогичный подход к новой задаче. Метод особенно эффективен для математических, логических и многошаговых задач, где критически важно последовательное рассуждение. Преимущество подхода в том, что он не требует дополнительного обучения модели, а работает исключительно на уровне промпта. • Self-reported

74.9%

BoolQ

В современном ландшафте больших языковых моделей (LLM) оценка значимости улучшений остается сложной задачей. Хотя существуют различные бенчмарки для измерения разных аспектов производительности LLM, они обычно не дают полного представления о возможностях моделей и часто не улавливают нюансы в том, как различия в возможностях проявляются в реальных сценариях использования. Для оценки модели в различных сценариях использования мы приняли подход с акцентом на качественную оценку. Вместо того чтобы оценивать модель на основе единственного числового показателя, мы стремимся предоставить более глубокое понимание различных аспектов производительности модели и поведения модели через разнообразные сценарии использования и типы запросов. Конкретно мы: - изучаем модель во множестве фундаментальных и продвинутых задач - используем детальный анализ рассуждений и вывода модели - сравниваем производительность между моделями - оцениваем, как модель обрабатывает отрицательный промпт (jailbreak) Этот подход не только предоставляет более целостное представление о возможностях модели, но и помогает выявить уникальные атрибуты и области для улучшения. • Self-reported

84.8%

Natural Questions

5-shot • Self-reported

34.5%

PIQA

0-shot Задаёт вопрос или задание для модели без каких-либо дополнительных примеров или инструкций. Модель опирается только на свои предварительные знания и обучение для создания ответа. Пример: "Опиши процесс фотосинтеза." Этот метод оценивает способность модели использовать свои базовые знания без дополнительного контекста. Преимущества: - Простота применения - Отражает реальные сценарии использования - Оценивает базовые знания без подсказок Ограничения: - Не учитывает возможности модели к обучению на примерах - Может давать неоптимальные результаты для сложных или специфических задач - Не позволяет моделям адаптировать свой ответ под конкретный желаемый формат • Self-reported

83.2%

Social IQa

Нулевая попытка • Self-reported

53.7%

TriviaQA

5-shot • Self-reported

83.7%

Лицензия и метаданные

Лицензия

gemma

Дата анонса

27 июня 2024 г.

Последнее обновление

19 июля 2025 г.