Gemma 3n E4B Instructed

Мультимодальная

Google

Gemma 3n — это мультимодальная модель, предназначенная для локального запуска на аппаратном обеспечении, поддерживающая входные данные в виде изображений, текста, аудио и видео. Она включает языковой декодер, аудиокодер и кодер изображений, и доступна в двух размерах: E2B и E4B. Модель оптимизирована для эффективного использования памяти, что позволяет запускать её на устройствах с ограниченным объёмом GPU RAM. Gemma представляет собой семейство легковесных современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались для создания моделей Gemini. Модели Gemma хорошо подходят для различных задач понимания контента, включая ответы на вопросы, суммаризацию и рассуждения. Их относительно небольшой размер позволяет развёртывать их в средах с ограниченными ресурсами, таких как ноутбуки, настольные компьютеры или собственная облачная инфраструктура, демократизируя доступ к современным моделям ИИ и способствуя инновациям для всех. Модели Gemma 3n разработаны для эффективного выполнения на устройствах с ограниченными ресурсами. Они способны обрабатывать мультимодальные входные данные, работая с текстом, изображениями, видео и аудио, и генерировать текстовые выходные данные, с открытыми весами для вариантов, настроенных под инструкции. Эти модели были обучены на данных более чем на 140 разговорных языках.

Основные характеристики

Параметры

8.0B

Контекст

32.0K

Дата выпуска

26 июня 2025 г.

Средний балл

42.0%

API документация Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

26 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

8.0B

Токены обучения

11.0T токенов

Граница знаний

1 июня 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$20.00

Выход (за 1М токенов)

$40.00

Макс. входящих токенов

32.0K

Макс. исходящих токенов

32.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точность. 0-shot. • Self-reported

64.9%

Программирование

Тесты на навыки программирования

HumanEval

pass@1. 0-shot. • Self-reported

75.0%

MBPP

# pass@1. 3-shot. Проход с первой попытки. 3 примера. • Self-reported

63.6%

Математика

Математические задачи и вычисления

MGSM

0-shot Модель выполняет задание без обучающих примеров. Это базовый случай, где мы предоставляем только инструкции или контекст, и модель должна сразу сгенерировать релевантный ответ. Например, в случае задания по генерации кода мы просто спрашиваем "Напиши мне функцию, которая считает простые числа", без предоставления примера того, как должен выглядеть код. • Self-reported

67.0%

Рассуждения

Логические рассуждения и анализ

GPQA

# Diamond. 0-shot Мы представляем Diamond (Decomposing Multi-Objective eNDs), метод для решения сложных проблем с помощью LLM. Diamond использует три стратегии: 1. **Декомпозиция**: Разбиение проблемы на подпроблемы и их решение по отдельности. 2. **Нижняя граница**: Вычисление нижней границы решения для проверки правильности подхода. 3. **Верхняя граница**: Проверка с помощью предположения ответа и обратного рассуждения. Diamond особенно эффективен для задач с числовыми результатами. Мы измеряем производительность Diamond с помощью нижней границы шумового порога (нижняя граница нашего решения) и верхней границы шумового порога (верхняя граница нашего решения). ## Применения Мы применяем Diamond в двух направлениях: 1. Для ответов на вопросы по математическим олимпиадам (IMO, AIME). 2. Для машинного обучения, включая подбор гиперпараметров для регрессии. ## Реализация Diamond может быть реализован с различными моделями, включая GPT-4, GPT-4o, Claude-3-Opus и Claude-3-Sonnet. Для нашего полного примера Diamond в действии см. Приложение B. ## Обновления Diamond продолжает развиваться по мере того, как мы решаем более сложные задачи. Недавние улучшения включают более эффективную декомпозицию и более надежное вычисление границ. • Self-reported

23.7%

Другие тесты

Специализированные бенчмарки

AIME 2025

Точность. 0-shot. • Self-reported

11.6%

Codegolf v2.2

pass@1. 0-shot. • Self-reported

16.8%

ECLeKTic

0-shot Это один из наиболее распространенных вариантов использования любой модели — ей предоставляют запрос и ожидают ответа без каких-либо примеров или подсказок о том, как следует на него отвечать. Как правило, это один из самых сложных режимов для модели — от нее ожидается, что она поймет запрос и сгенерирует на него ответ без дополнительного контекста. Очевидно, что это самый распространенный способ использования моделей AI большинством людей. Следует помнить, что, несмотря на распространенность использования моделей в режиме 0-shot, для многих задач их производительность можно существенно улучшить с помощью дополнительного контекста или примеров. • Self-reported

19.0%

Global-MMLU

В 0-shot сценарии модели предоставляется задача без каких-либо примеров для демонстрации выполнения задачи. Модель должна полностью опираться на свои параметры, полученные в процессе предварительного обучения, чтобы сформировать подходящий ответ. Например, модель может получить запрос: "Решите уравнение 3x + 7 = 19", и модель должна генерировать ответ без каких-либо дополнительных примеров или указаний о том, как решать линейные уравнения. Эта конфигурация полезна для проверки того, насколько хорошо модель может генерализировать и применять знания, полученные во время предварительного обучения, к новым задачам. • Self-reported

60.3%

Global-MMLU-Lite

Точность. 0-shot. • Self-reported

64.5%

HiddenMath

Точность. 0-shot. • Self-reported

37.7%

Include

Метод 0-shot — это процесс, при котором модель дает ответ без какого-либо дополнительного контекста или примеров. В сценарии 0-shot модель должна полагаться исключительно на знания, полученные во время предварительного обучения, чтобы сформулировать свой ответ. Это наиболее строгая форма тестирования, поскольку она оценивает внутренние знания модели без какой-либо дополнительной помощи. В тестах 0-shot модель просто получает инструкцию или вопрос и должна сразу же дать ответ. Например, в задаче по математике можно спросить: "Чему равен интеграл от x² по dx?" — и модель должна ответить, используя только свои встроенные знания, без возможности видеть примеры решения подобных задач. 0-shot тестирование часто используется как базовая мера производительности модели, показывающая, насколько хорошо она усвоила знания во время обучения и может применять их к новым задачам без дополнительного контекста. • Self-reported

57.2%

LiveCodeBench

pass@1. 0-shot. • Self-reported

13.2%

LiveCodeBench v5

pass@1. 0-shot. • Self-reported

25.7%

MMLU-Pro

Точность. Нулевой шот. • Self-reported

50.6%

MMLU-ProX

0-shot В контексте крупных языковых моделей (LLM), нулевое-обучение (0-shot) относится к способности модели выполнять задачу без предварительных примеров или обучения на конкретных данных этой задачи. Модель опирается исключительно на свои предварительно обученные знания и способность к обобщению. При нулевом-обучении модель получает только инструкцию или вопрос, не имея доступа к примерам правильных ответов на подобные задачи. Ей необходимо полагаться на паттерны и информацию, усвоенные во время предварительного обучения, чтобы сформулировать соответствующий ответ. Производительность модели в режиме нулевого-обучения считается важным показателем ее фундаментальных возможностей и обобщающей способности. Сильная производительность в таких условиях указывает на то, что модель действительно "понимает" задачу, а не просто запоминает или копирует ранее виденные примеры. Задачи нулевого-обучения особенно сложны для моделей, так как они требуют применения знаний в новых контекстах без какой-либо адаптации или тонкой настройки для конкретной задачи. • Self-reported

19.9%

OpenAI MMLU

0-shot AI: предоставляет ответ на запрос без предоставления каких-либо примеров в подсказке. Это наиболее распространенный способ взаимодействия с большими языковыми моделями в мире, так как это наиболее естественный способ общения (подобно тому, как люди обычно разговаривают друг с другом), и он не требует от пользователя предоставления примеров. 0-shot также полезен для фундаментальной оценки возможностей модели, поскольку он показывает, что модель может делать без дополнительного руководства в виде примеров. • Self-reported

35.6%

WMT24++

Character-level F-score. 0-shot. • Self-reported

50.1%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

26 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Gemma 3n E4B Instructed

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Gemma 3 4B

Gemini 1.5 Flash 8B

Gemini 2.0 Flash-Lite

Gemma 3 12B

Gemma 3 27B

Gemini 2.5 Flash-Lite

Gemini 1.5 Pro

Gemini 2.5 Pro