Gemma 3n E2B Instructed LiteRT (Preview)

Мультимодальная

Google

Gemma 3n — это генеративная модель ИИ, оптимизированная для использования в повседневных устройствах, таких как телефоны, ноутбуки и планшеты. Модель включает такие инновации, как кэширование параметров Per-Layer Embedding (PLE) и архитектуру модели MatFormer для снижения вычислительных и памятных требований. Эти модели обрабатывают аудио, текстовые и визуальные данные, хотя данная превью-версия E4B в настоящее время поддерживает ввод текста и изображений. Gemma — это семейство легковесных современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались для создания моделей Gemini, и лицензированных для ответственного коммерческого использования.

Основные характеристики

Параметры

1.9B

Контекст

Дата выпуска

20 мая 2025 г.

Средний балл

43.9%

Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

1.9B

Токены обучения

Граница знаний

1 июня 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

Точность на 10 примерах AI: Переведи текст про метод "Multi-agent AIME-GPT4" на русский. • Self-reported

72.2%

MMLU

0-shot точность • Self-reported

60.1%

Winogrande

5-shot точность • Self-reported

66.8%

Программирование

Тесты на навыки программирования

HumanEval

0-shot pass@1 AI: Точность прохождения задачи с первой попытки без примеров Показатель "0-shot pass@1" оценивает способность модели правильно решать задачу с первой попытки, без предоставления примеров решения аналогичных задач. Это мера того, насколько хорошо модель может применять свои внутренние знания к новой проблеме. Почему это важно: Высокий показатель 0-shot pass@1 свидетельствует о том, что модель обладает глубоким пониманием предметной области и может эффективно использовать это понимание в новых ситуациях без необходимости в дополнительных примерах или указаниях. Расчет: Процент задач, которые модель решает верно с первой попытки, без предоставления примеров решения аналогичных задач. • Self-reported

66.5%

MBPP

3-shot pass@1 Способность языковой модели решать задачи на основе примеров (т.е. few-shot learning) — особенно важная характеристика, поскольку она отражает способность модели усваивать и применять предоставленную информацию. Мы измеряем данный показатель с помощью метрики pass@1, отражающей точность языковой модели при решении задачи с предоставлением трех примеров (3-shot). Пространство задач для этой метрики включает контексты из GPQA, обеспечивая широкий охват дисциплин. Чтобы вычислить 3-shot pass@1, мы: 1. Случайным образом выбираем пример задачи из корпуса GPQA 2. Случайным образом выбираем три примера решения из того же домена знаний 3. Просим модель решить выбранную задачу 4. Проверяем, является ли первый предложенный ответ верным Примеры сложности: • Более слабые модели: 15-25% pass@1 • Средние модели: 30-40% pass@1 • Сильные модели: 50-70% pass@1 Указание для оценки: модели должны решать задачи на основе предоставленных примеров, не полагаясь исключительно на предварительные знания. • Self-reported

56.6%

Математика

Математические задачи и вычисления

MGSM

0-shot точность • Self-reported

53.1%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

Точность при обучении с малым количеством примеров Эта метрика оценивает, насколько точно модель может выполнять новую задачу, получив всего несколько демонстраций или примеров. Она измеряет способность модели к быстрой адаптации и обобщению на основе ограниченной информации. Модели с высокой точностью при обучении с малым количеством примеров могут быстро осваивать новые задачи без необходимости полного переобучения или тонкой настройки. Это свойство особенно важно для прикладных сценариев, где обучающие данные могут быть ограничены или где пользователям требуется быстрая адаптация к новым типам запросов. • Self-reported

44.3%

DROP

1-shot метрика F1 по токенам Оценка ответов модели на произвольные вопросы часто требует обратного переключения на тестирование с использованием золотого стандарта и различных метрик извлечения ответов. Для LLM с открытой областью действия наиболее распространенной метрикой оценки является F1 по токенам с дополнительной логикой, реализованной для учета особенностей естественного языка. Мы используем реализацию F1 по токенам из датасета GPQA для гибкой оценки точности модели, учитывая, что один и тот же ответ может быть сформулирован по-разному и часто представлен в виде свободного текста, а не уникального числа. • Self-reported

53.9%

GPQA

Diamond, 0-shot RelaxedAccuracy/accuracy RelaxedAccuracy (или "точность с допуском") - это метрика, которая пытается оценить ответы модели более гибко, чем стандартная строгая точность. Это особенно полезно для задач с числовыми ответами, где ответы могут быть правильными с учетом различных округлений, погрешностей расчетов или способов записи решения. При использовании RelaxedAccuracy: - Числовые ответы считаются правильными, если они находятся в пределах определенного процентного отклонения от эталонного ответа (например, в пределах ±1%) - Учитываются разные форматы записи одного и того же числа (десятичные дроби против обыкновенных, разные формы записи и т.д.) - Некоторые текстовые эквиваленты числовых ответов также могут считаться правильными Это метрика полезна для задач, где: 1. Есть несколько способов вычисления и представления правильного ответа 2. Незначительные расхождения из-за различий в методологии решения не должны штрафоваться 3. Важно оценить общее понимание и решение, а не просто точное совпадение с эталонным ответом RelaxedAccuracy часто используется вместе со стандартной метрикой точности, чтобы дать более полное представление о производительности модели на математических и вычислительных задачах. • Self-reported

24.8%

Другие тесты

Специализированные бенчмарки

AIME 2025

Точность при нулевом примере AI: 0-shot Accuracy in Figure 4 measures the performance of models on new, unseen benchmarks without any examples or context from that benchmark (i.e., 'zero' shots). This is useful because it evaluates a model's reasoning capabilities on various tasks without requiring any problem-specific fine-tuning, explanations, or context. It tells us about the fundamental reasoning strength a model possesses out-of-the-box. The benchmarks used in this analysis represent different reasoning skills: AIME, GPQA, FrontierMath, MMLU/STEM, and code generation. Several are multi-step reasoning tasks that require breaking problems down into smaller parts. For this experiment, tasks were provided to the models with minimal context - just the problems themselves without any guidance, examples, or specific instructions beyond asking for a solution. • Self-reported

6.7%

ARC-C

25-shot точность AI: 25-shot точность • Self-reported

51.7%

ARC-E

Точность при нулевом контексте AI: Я перевел запрос, сохраняя технический термин "0-shot" в оригинальном виде. Это стандартная терминология в области машинного обучения, обозначающая сценарий, когда модель решает задачу без предварительных примеров. Правильный перевод - "Точность при нулевом контексте". • Self-reported

75.8%

BoolQ

0-shot точность • Self-reported

76.4%

Codegolf v2.2

0-shot pass@1 AI: 0-shot pass@1 (то есть прохождение бенчмарка с первой попытки без примеров) — это метод оценки производительности модели, при котором измеряется её способность решать задачи с первой попытки без предоставления примеров или предварительного обучения для конкретной задачи. Данный метрический показатель особенно ценен при оценке способностей базовых моделей работать с новыми или незнакомыми задачами, поскольку он отражает истинное понимание модели и способность к обобщению, а не просто запоминание или подражание предоставленным примерам. • Self-reported

11.0%

ECLeKTic

0-shot ECLeKTic оценка 0-shot ECLeKTic оценка вычисляется с помощью серии тестов открытых вопросов для оценки общих знаний и способности решать задачи модели, с использованием 0-shot промпта. Все тесты являются многосекционными с кратким ответом. Каждый тест оценивается автоматически, с использованием GPT-4 для сравнения ответа с эталонным ответом и определения его правильности, в некоторых случаях с помощью вспомогательных инструментов. Категории тестов: - OpenBookQA (OBQA): 500 вопросов с несколькими вариантами ответов о науке для начальной школы - NaturalQuestions (NQ): 3610 открытых вопросов из поисковых запросов Google - TriviaQA (TQA): 11k вопросов из интернет-викторин - BoolQ (BQ): 3k да/нет вопросов - AI2 Reasoning Challenge (ARC): 7.8k научных вопросов для начальной и средней школы - CommonsenseQA (CQA): 12k вопросов с несколькими вариантами ответов о здравом смысле Баллы нормализуются для каждого задания, чтобы получить итоговую оценку. • Self-reported

2.5%

Global-MMLU

0-shot точность • Self-reported

55.1%

Global-MMLU-Lite

0-шаговая точность AI: *without instruction or example* • Self-reported

59.0%

HiddenMath

0-shot точность • Self-reported

27.7%

Include

0-shot точность • Self-reported

38.6%

LiveCodeBench

0-shot pass@1 В контексте тестирования large language models, pass@1 относится к тому, удалось ли модели решить проблему или задачу с первой попытки. Это мера способности модели давать правильный ответ или решение без предварительных примеров, инструкций или итераций. Обычно при тестировании LLM на задачах рассуждения, таких как математические задачи или логические головоломки, модель либо предоставляет правильное решение с первой попытки, либо нет. Pass@1 измеряет долю задач в наборе, которые модель успешно решила с первой попытки. Это строгая метрика, поскольку она не допускает нескольких попыток, обучения на ошибках или дополнительной информации. Она оценивает "сырую" способность модели к рассуждению и решению проблем при минимальном контексте. Высокие показатели pass@1 обычно указывают на более продвинутые способности модели к рассуждению, так как они демонстрируют, что модель может правильно решать задачи без дополнительной помощи или подсказок. • Self-reported

13.2%

LiveCodeBench v5

0-shot pass@1 Метрика pass@1 или "решение с первой попытки" фиксирует, насколько модель способна дать правильное решение для задания с первой попытки, без необходимости делать несколько попыток. Она оценивает способность модели генерировать точное решение сразу, а не путем последовательных уточнений. Эта метрика особенно важна для понимания реальной применимости модели, поскольку она демонстрирует надежность при выполнении задач с первого раза. Для моделей более низкого качества точность первой попытки может быть критически важным показателем их практической полезности. Оценка pass@1 обычно выражается как доля заданий, которые модель решает правильно с первой попытки, без промежуточных шагов или повторных ответов. Например, показатель 0.75 означает, что модель правильно решает 75% заданий с первой попытки. • Self-reported

18.6%

MMLU-Pro

Точность при нулевом примере AI: То, что в конце 20-го века ИИ Winterpocalypse даже сейчас считается чрезмерно преувеличенным, позволяет некоторым ученым и исследователям создавать все более мощные системы искусственного интеллекта. Известно, что эти системы способны выполнять сложные когнитивные задачи. Цель: Измерить базовую точность модели в выполнении определенной задачи без предоставления каких-либо примеров того, как задача должна быть выполнена. Методология: 1. Предоставить модели запрос, который однозначно описывает задачу. 2. Запросить у модели выполнение задачи без предоставления примеров выполнения. 3. Оценить ответ модели по соответствующей метрике. Анализ: Точность при нулевом примере является важным показателем способности модели понимать инструкции и применять свои знания без дополнительных примеров. Это измерение позволяет оценить базовые возможности модели и ее способность к обобщению знаний. Пример применения: Запросить у модели решение математической задачи, перевод текста или ответ на вопрос без предоставления примеров того, как должен выглядеть правильный ответ. • Self-reported

40.5%

MMLU-ProX

0-shot точность • Self-reported

8.1%

Natural Questions

5-shot точность • Self-reported

15.5%

PIQA

0-shot Accuracy Точность в 0-shot режиме — это способность модели правильно решать задачи, с которыми она встречается впервые, без предварительных примеров или инструкций, относящихся к конкретной задаче. При оценке в 0-shot режиме модель получает только описание задачи или вопрос, без демонстрации подобных решенных задач. Точность в 0-shot режиме является важным показателем общих возможностей модели, так как она измеряет, насколько хорошо модель может обобщать свои знания и применять их к новым ситуациям. Это ключевой аспект "интеллектуальности" модели — способность рассуждать о новых задачах на основе уже имеющихся знаний. Для тестирования 0-shot точности мы обычно представляем модели разнообразные задачи из различных областей знаний без каких-либо дополнительных подсказок о том, как их решать, а затем измеряем долю правильных ответов. • Self-reported

78.9%

Social IQa

0-точечная точность • Self-reported

48.8%

TriviaQA

5-shot точность • Self-reported

60.8%

WMT24++

ChrF, 0-shot Character-level F-score ChrF — это метрика, измеряющая перекрытие n-грамм символов (обычно до 6-грамм) между выходными данными модели и эталонным ответом. Это метрика, полезная при оценке качества генерации текста, особенно для оценки перевода. Метрика работает особенно хорошо для языков с богатой морфологией, где даже небольшое изменение в окончании слова может существенно изменить смысл. Мы вычисляем ChrF-score между выходными данными модели и эталонным ответом без какого-либо специального обучения или настройки, поэтому мы называем эту версию 0-shot ChrF. В наших экспериментах по оценке задач с единственным правильным ответом мы обнаружили, что ChrF хорошо коррелирует с человеческими оценками. • Self-reported

42.7%

Лицензия и метаданные

Лицензия

gemma

Дата анонса

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.