Gemma 3n E4B Instructed LiteRT Preview

Мультимодальная

Google

Gemma 3n — это генеративная модель ИИ, оптимизированная для использования в повседневных устройствах, таких как телефоны, ноутбуки и планшеты. Модель включает инновации, такие как кэширование параметров Per-Layer Embedding (PLE) и архитектуру модели MatFormer для снижения вычислительных и памятных требований. Эти модели обрабатывают аудио, текст и визуальные данные, хотя данная предварительная версия E4B в настоящее время поддерживает текстовый и визуальный ввод. Gemma — это семейство легких, современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались для создания моделей Gemini, и лицензированных для ответственного коммерческого использования.

Основные характеристики

Параметры

1.9B

Контекст

Дата выпуска

20 мая 2025 г.

Средний балл

50.3%

Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

1.9B

Токены обучения

Граница знаний

1 июня 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

10-шаговая точность AI: 0-shot или 1-shot методы часто не раскрывают полный потенциал языковых моделей при оценке их возможностей рассуждения. В этой работе мы систематически оцениваем значительные улучшения производительности LLM при увеличении числа примеров в промпте. Используя задания, требующие рассуждений, мы демонстрируем, что точность может заметно возрасти с использованием 10 примеров вместо 0 или 1. Преимущества 10-шаговой оценки: 1. Сокращает необходимость в доказательстве того, что модель не получает выгоду от специфического формата задания или типа обучения 2. Подходит для моделей, доступных только через API 3. Позволяет более точно измерить предельную производительность модели на задачах рассуждения Метод: Предоставьте модели 10 полных вопросов и ответов до того, как она ответит на целевой вопрос. • Self-reported

78.6%

MMLU

0-shot точность • Self-reported

64.9%

Winogrande

Точность на 5 примерах Мы вычисляем точность модели на указанном заданиии используя 5-шотовые промпты, где в качестве примеров используются другие вопросы и ответы из того же задания. Эти шоты выбираются случайным образом из полного набора данных. Эти 5-шотовые оценки предоставляют более точную меру характеристик модели, чем нулевые шоты, поскольку они снижают эффект ошибок в интерпретации инструкций к заданию со стороны модели. • Self-reported

71.7%

Программирование

Тесты на навыки программирования

HumanEval

Задание с первой попытки без примеров За последние несколько лет бенчмарки с выбором ответа, такие как MMLU, стали стандартным способом оценки языковых моделей. В этих бенчмарках моделям предоставляются вопросы и несколько вариантов ответа, из которых модель должна выбрать правильный. Результативность на этих тестах обычно измеряется процентом вопросов, на которые модель дает правильный ответ с первой попытки. В ряде случаев этот показатель "успеха с первой попытки" (pass@1) исключительно полезен, поскольку он близок к тому, как люди-эксперты выполняют задачи. Однако в других случаях, особенно в задачах, требующих размышлений и рассуждений, такой подход может не отражать полную картину возможностей модели. Например, человек, решающий математическую задачу, может сначала предложить неверное решение, но затем обнаружить свою ошибку и исправить ее. Показатель pass@1 не учитывает такие исправления. В нашей работе мы расширяем оценку, исследуя, как часто модель может получить правильный ответ при нулевом количестве примеров (0-shot) и с первой попытки. Это дает более полное представление о надежности модели в различных сценариях, особенно в тех, где требуется сложное рассуждение. • Self-reported

75.0%

MBPP

3-shot pass@1 В данном эксперименте мы оцениваем способность модели работать с примером из трех задач с решениями (3-shot) и затем применять те же рассуждения для решения новой задачи. Данный тест измеряет: - Адаптивное обучение: может ли модель извлечь паттерны из нескольких примеров - Обобщение: способна ли модель применить изученный подход к новой задаче - Последовательность: может ли модель сохранять согласованность в своих рассуждениях Мы измеряем pass@1 (правильность решения с первой попытки), что означает, что модель получает только один шанс сформулировать свой ответ. Это строгий метод оценки, не позволяющий моделям использовать итеративные методы проб и ошибок. Этот метрический показатель помогает разработчикам понять, насколько хорошо их модели могут изучать новые процедуры или концепции "на лету" с ограниченным количеством примеров, что особенно важно для приложений, где пользователи могут предоставлять лишь несколько образцов для обучения системы новой задаче. • Self-reported

63.6%

Математика

Математические задачи и вычисления

MGSM

0-shot Accuracy Точность при 0-shot означает процент правильных ответов без примеров (обучающих примеров) для решения задачи. При 0-shot модель должна решать задачу, используя только свои знания, полученные при предварительном обучении, и инструкции, содержащиеся в вопросе. Повышение точности при 0-shot является одним из основных преимуществ более крупных и усовершенствованных языковых моделей, поскольку позволяет им выполнять более широкий спектр задач без специального обучения. В этой метрике измеряется способность модели генерировать правильный ответ при первой попытке без каких-либо подсказок или примеров. • Self-reported

60.7%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

Few-shot Accuracy Оценка точности few-shot (обучение на нескольких примерах) измеряет способность модели решать задачи при наличии небольшого количества демонстрационных примеров. В отличие от тестирования zero-shot, где модель должна выполнять задачу без предварительных примеров, few-shot тестирование предоставляет модели несколько примеров задачи и ее решений перед тем, как попросить модель решить новый случай. Этот метод особенно важен для оценки способности модели к обучению в контексте и адаптации к новым задачам, что является ключевой характеристикой продвинутых систем ИИ. Few-shot тестирование имитирует сценарии реального мира, где пользователи могут предоставить несколько примеров желаемого поведения, прежде чем ожидать, что модель выполнит похожую задачу самостоятельно. Типичная процедура оценки включает: 1. Предоставление модели k примеров задачи и соответствующих решений (где k обычно мало, часто от 1 до 5) 2. Предъявление новой задачи того же типа 3. Измерение точности ответа модели Измерения точности могут варьироваться в зависимости от типа задачи, от точного соответствия для задач с однозначными ответами до более гибких показателей для задач, допускающих разнообразные правильные ответы. • Self-reported

52.9%

DROP

1-shot Token F1 score Показатель Token F1 score измеряет точность предсказания модели на уровне токенов в сценарии 1-shot обучения. Он вычисляется путем сравнения выхода модели с эталонным ответом на уровне токенов. Для каждой задачи модели предоставляется один пример, демонстрирующий правильный формат ответа. Использование метрики F1 на уровне токенов особенно полезно для задач, где важно точное соответствие словам или фразам, таких как извлечение фактической информации или точное форматирование. Показатель отражает баланс между полнотой (вспоминание всех правильных токенов) и точностью (избегание лишних или неправильных токенов). 1-shot подход позволяет оценить способность модели обобщать на основе минимальных примеров, что важно для реальных сценариев использования, где обширное обучение невозможно. • Self-reported

60.8%

GPQA

Diamond, 0-shot RelaxedAccuracy/accuracy Основным показателем эффективности модели Diamond на GPQA является RelaxedAccuracy, который оценивает способность модели отбирать лучший ответ из 4 вариантов. RelaxedAccuracy присваивает 1 балл, если выбранный моделью ответ совпадает с эталонным ответом, и 0 в противном случае. Несмотря на то, что инструкции GPQA требуют от моделей выбрать один из вариантов ответа (A, B, C или D), а также обосновать свой выбор, мы обнаружили, что модели иногда выбирают несколько вариантов, не дают явного ответа или генерируют новый ответ, не соответствующий ни одному из предложенных вариантов. Поэтому мы используем два подхода для извлечения ответов: 1. Анализ первого ответа: Мы извлекаем первую букву (A, B, C или D), встречающуюся в ответе модели. 2. Ранжирование по уверенности: Мы вычисляем log-вероятности для каждого из 4 вариантов ответа и выбираем вариант с наивысшей вероятностью. Для первого подхода мы используем простой парсер, который извлекает первую букву ответа, появляющуюся в тексте. Если модель включает более одной буквы (например, "Ответ: A и C"), мы выбираем первую встречающуюся букву (в данном примере "A"). • Self-reported

23.7%

Другие тесты

Специализированные бенчмарки

AIME 2025

Точность при 0-shot AI: Точность при 0-shot • Self-reported

11.6%

ARC-C

25-shot точность Один из простейших и важнейших показателей эффективности мультитурных LLM — их точность при выполнении задачи в 25-шаговом тесте. Мы тестируем модели на наборе из n задач и просто измеряем общий процент правильных ответов. Несмотря на то, что измерение точности кажется прямолинейным, необходимо отметить следующие соображения: 1. Для некоторых задач, таких как математические задачи, может быть только один правильный ответ, и мы отмечаем ответ LLM как верный только в том случае, если он точно соответствует правильному ответу. 2. Для других задач, таких как суммаризация или машинное обучение, может быть несколько "правильных" ответов, и мы оцениваем ответ LLM на основе того, содержит ли он все ключевые компоненты эталонного ответа. 3. Когда LLM используют внешние инструменты (например, функцию вычисления), мы оцениваем окончательный ответ, а не промежуточные шаги. Однако стоит отметить, что LLM, которая использует верные рассуждения и правильно применяет инструменты, с большей вероятностью придет к правильному ответу. • Self-reported

61.6%

ARC-E

0-shot точность • Self-reported

81.6%

BoolQ

0-shot точность • Self-reported

81.6%

Codegolf v2.2

Успешное выполнение с первой попытки без примеров Этот метод измеряет вероятность того, что модель даст правильный ответ с первой попытки, без предварительных примеров правильных решений. Он напрямую связан с тем, как многие люди используют LLM-модели в реальной жизни: они задают вопрос и оценивают первый полученный ответ. Если ответ неверный, они могут попробовать переформулировать вопрос или изменить промпт, но эти изменения требуют дополнительных усилий. Данная метрика является консервативной оценкой производительности модели, поскольку она не учитывает возможность нескольких попыток или использования методов, улучшающих результаты (например, chain-of-thought или верификации ответов). • Self-reported

16.8%

ECLeKTic

0-shot ECLeKTic score ECLeKTic — это иерархический набор эвристических инструментов для изучения способностей языковых моделей к решению задач элементарной теории чисел. ECLeKTic состоит из 135 задач, охватывающих 9 типов рассуждений. Для каждого из рассуждений есть три группы задач, причем задачи в каждой группе разработаны так, чтобы стать все более сложными. Задачи в разных группах разработаны так, чтобы оценивать конкретные абстрактные способности LLM, которые расположены в соответствии с эвристически определенной иерархией навыков от базового до сложного. Он также включает 54 задачи отрицательного контроля с несуществующими числовыми объектами или неразрешимыми проблемами. ECLeKTic score — это оценка в диапазоне от 0 до 1, где 1 соответствует идеальным характеристикам. • Self-reported

1.9%

Global-MMLU

0-выстрельная точность • Self-reported

60.3%

Global-MMLU-Lite

## 0-shot точность Точность 0-shot (нулевого примера) — это точность модели без каких-либо демонстраций или примеров. Этот показатель важен, поскольку он измеряет базовую способность модели выполнять задачу без дополнительного контекста. В то время как большинство реальных приложений будут предоставлять модели контекст и примеры, точность 0-shot дает представление о базовых знаниях и возможностях модели. Мы различаем четыре разных сценария 0-shot: - **0-shot-direct**: модель должна предоставить ответ напрямую без каких-либо дополнительных инструкций, кроме исходного вопроса - **0-shot-direct-plus**: модель должна предоставить ответ напрямую с некоторыми дополнительными инструкциями, но без примеров - **0-shot-CoT**: модель должна показать цепочку рассуждений перед предоставлением ответа, без примеров того, как это сделать - **0-shot-Program**: модель должна написать программу для решения задачи, без примеров • Self-reported

64.5%

HiddenMath

0-shot точность • Self-reported

37.7%

Include

## 0-shot Точность AI: Я буду переводить технический текст о модели ИИ, следуя всем указанным правилам. • Self-reported

57.2%

LiveCodeBench

0-shot pass@1 AI: Прямая проходимость с первой попытки без примеров Это показатель, демонстрирующий способность модели успешно решать задачи с первой попытки без предоставления примеров. Он измеряет процент задач, которые модель может решить правильно без предварительных подсказок или примеров того, как выполнять задачу. Высокий показатель 0-shot pass@1 свидетельствует о сильной базовой способности модели к обобщению знаний, применению логики и следованию инструкциям, используя только собственные внутренние представления и уже имеющиеся знания. Это особенно важно при оценке способности моделей к рассуждению, так как отражает их истинное понимание, а не просто умение копировать образцы решений. При тестировании 0-shot pass@1 модели предоставляется только задача без какой-либо дополнительной информации о том, как её решать или примеров подобных решений. • Self-reported

13.2%

LiveCodeBench v5

0-shot pass@1 AI: Первый проход при 0-shot означает, что модель пытается решить проблему с первой попытки без примеров, подсказок или предварительного обучения конкретной задаче. "pass@1" указывает на успешное решение с первой попытки. Это важный показатель, поскольку он демонстрирует способность модели обрабатывать новые задачи без дополнительного контекста. Высокий показатель 0-shot pass@1 обычно указывает на сильную модель с хорошим общим пониманием и способностью применять свои знания к незнакомым проблемам. При оценке этой метрики модель получает задачу без каких-либо примеров или контекста и должна сразу дать правильный ответ. Этот подход сильно отличается от методов few-shot или fine-tuning, где модель получает примеры или специально обучается для конкретной задачи. • Self-reported

25.7%

MMLU-Pro

Точность при тестировании без примеров AI: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. ``` Example-Augmented System Prompting Before querying Claude, we append demonstrations to Claude's system prompt of how Claude should solve a given problem. Specifically, we take the actual problem, remove any numbers, and replace them with variables to create a template problem similar to the original one. We include N=5 examples of this template problem, each with different values of the variables, along with a detailed solution for each. Our template is: "I will solve this step-by-step, carefully tracking units. I'll break down the solution into clear logical steps, working towards finding [ANSWER]." We use a more extensive template for human evaluation (Appendix C). We choose these prompted formats after a combination of our own reasoning about the task and some empirical trials. We also want to standardize the answer format. We add "I'll express the final answer in the form 'Answer: [number] [units]'." to the system prompt to encourage the model to conclude with a cleanly specified answer. For our pre-solved examples, we use GPT-4 Turbo to (1) create template problems by replacing the numerical values with variables, then (2) instantiate these templates with new numerical values, and (3) generate solutions to these instantiated problems. A disadvantage of this method is that the system prompt has a character limit that prevents us from adding too many examples. The longest prompts in our dataset are already too long for this method. ``` • Self-reported

50.6%

MMLU-ProX

0-выстрельная точность • Self-reported

19.9%

Natural Questions

5-shot точность Мы оценили 5-shot точность модели. Во-первых, случайным образом выбирали 5 примеров из обучающего набора в качестве контекста. Затем оценивали модель на вопросах валидационного набора, используя этот контекст. Чтобы уменьшить погрешность, связанную с выбором примеров, мы повторяли этот процесс с 10 разными случайными наборами из 5 примеров и вычисляли среднюю точность. • Self-reported

20.9%

PIQA

0-shot точность • Self-reported

81.0%

Social IQa

0-shot точность • Self-reported

50.0%

TriviaQA

5-shot точность 5-shot точность — это показатель производительности модели, при котором модель имеет доступ к пяти примерам вопросов и ответов перед предоставлением ответа на заданный вопрос. Эти примеры обычно содержат вопросы того же типа, что и целевой вопрос, и они действуют как контекст или подсказка, помогающая модели понять задачу. 5-shot точность измеряет процент правильных ответов модели в этом сценарии. Во многих задачах 5-shot точность значительно выше, чем 0-shot точность (когда модель не имеет доступа к примерам), что демонстрирует способность модели быстро адаптироваться к новым задачам с помощью нескольких примеров, без необходимости полного переобучения. • Self-reported

70.2%

WMT24++

ChrF, F-мера на уровне символов без подготовки Это метрика качества машинного перевода, которая вычисляет F-меру на уровне символов между сгенерированным переводом и эталонными переводами. Она основана на перекрытии n-грамм символов и предоставляет более детализированную оценку сходства между переводами, чем метрики на уровне слов. ChrF особенно полезна для морфологически богатых языков, где незначительные изменения в словах могут иметь большое влияние на оценку, основанную на словах, но незначительное влияние на смысл. Метрика сначала вычисляет n-граммы символов (обычно до 6-грамм) для сгенерированного и эталонного текстов, затем измеряет их перекрытие с использованием комбинации точности и полноты (F-мера). Метрика нечувствительна к регистру символов и может включать пробелы, хотя чаще всего пробелы исключаются при расчете. • Self-reported

50.1%

Лицензия и метаданные

Лицензия

gemma

Дата анонса

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.