Gemma 3n E2B

Мультимодальная

Google

Gemma 3n — это мультимодальная модель, разработанная для локального запуска на оборудовании, поддерживающая входные данные в виде изображений, текста, аудио и видео. Она включает языковой декодер, аудио-энкодер и визуальный энкодер, и доступна в двух размерах: E2B и E4B. Модель оптимизирована для эффективного использования памяти, что позволяет запускать её на устройствах с ограниченным объёмом GPU RAM. Gemma — это семейство лёгких, современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались для создания моделей Gemini. Модели Gemma хорошо подходят для различных задач понимания контента, включая ответы на вопросы, реферирование и логические рассуждения. Их относительно небольшой размер позволяет развёртывать их в средах с ограниченными ресурсами, таких как ноутбуки, настольные компьютеры или собственная облачная инфраструктура, демократизируя доступ к современным моделям ИИ и способствуя инновациям для всех. Модели Gemma 3n разработаны для эффективного выполнения на устройствах с низкими ресурсами. Они способны обрабатывать мультимодальные входные данные, работая с текстом, изображениями, видео и аудио, и генерируют текстовые выходные данные, с открытыми весами для вариантов, настроенных на следование инструкциям. Эти модели были обучены на данных на более чем 140 разговорных языках.

Основные характеристики

Параметры

8.0B

Контекст

Дата выпуска

26 июня 2025 г.

Средний балл

58.6%

API документация Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

26 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

8.0B

Токены обучения

11.0T токенов

Граница знаний

1 июня 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

10-shot Представляет метод аргументации, обеспечивающий более высокую производительность по сравнению с традиционными подходами типа few-shot. В отличие от традиционных методов, которые предоставляют модели только заранее заданные примеры для понимания задачи, 10-shot позволяет модели сначала изучить 10 примеров, а затем использовать эти примеры как справочный материал при решении новых проблем. Процесс 10-shot позволяет модели проводить более глубокий анализ примеров и устанавливать связи между ними и новой задачей, что способствует более точному рассуждению. Этот метод особенно эффективен для сложных задач, требующих четкого логического мышления, таких как математические задачи, головоломки или многошаговые рассуждения. Формат 10-shot включает предоставление модели набора из 10 различных примеров с подробными решениями, которые она может использовать в качестве руководства при выполнении новой задачи. Это позволяет модели распознавать шаблоны и стратегии решения, которые можно применить к текущей проблеме. • Self-reported

72.2%

Winogrande

5-shot AI: GPT-4 развивает обширную и точную аргументацию, опираясь на 5 примеров. Решение проблемы осуществляется за 5 шагов: 1. Пример 1 → обучение решению конкретной задачи 2. Пример 2 → понимание новых нюансов 3. Пример 3 → обработка пограничных случаев 4. Пример 4 → применение обобщенных правил 5. Пример 5 → закрепление и проверка выводов Эффективность: - Повышение точности на 22-30% в сложных задачах по сравнению с 1-shot - Значительное снижение ошибок в математических рассуждениях - Более глубокое понимание контекста и подтекста Применение: • Идеально для задач, требующих последовательного рассуждения • Полезно при обучении сложным концепциям • Превосходит другие подходы в задачах с высокой неопределенностью Ограничения: • Увеличивает потребление токенов • Требует тщательного подбора примеров • Может быть избыточным для простых задач • Self-reported

66.8%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

few-shot • Self-reported

44.3%

DROP

Token F1 score. 1-shot. • Self-reported

53.9%

Другие тесты

Специализированные бенчмарки

ARC-C

25-shot • Self-reported

51.7%

ARC-E

0-шот AI: (Я предпочитаю местоимение "я") Для решения этой задачи мне нужно определить, какие шахматные фигуры можно разместить на доске размером 5×5 так, чтобы никакая фигура не била другую. Начну с рассмотрения правил движения фигур: - Король: 1 клетка в любом направлении - Ферзь: любое количество клеток по горизонтали, вертикали или диагонали - Ладья: любое количество клеток по горизонтали или вертикали - Слон: любое количество клеток по диагонали - Конь: ход буквой "Г" (2 клетки по одной оси, затем 1 клетка перпендикулярно) - Пешка: бьет на 1 клетку по диагонали вперед Для максимизации количества фигур я должен эффективно использовать пространство доски, учитывая области атаки каждой фигуры. Стратегия: 1. Буду размещать фигуры с наиболее ограниченной областью атаки (короли, кони, пешки) 2. Затем попробую добавить фигуры с обширной областью атаки (ферзи, ладьи, слоны) 3. Проверю, что никакая фигура не атакует другую Начну расставлять фигуры с пешек и королей, так как их области атаки наиболее ограничены. Затем добавлю кони, которые имеют необычную траекторию движения. Наконец, попробую добавить слонов, ладей и ферзей, если останется пространство. Интуитивно, я мог бы разместить около 8-10 фигур, но проведу детальный анализ для точного ответа. • Self-reported

75.8%

BoolQ

Модели с 0-shot тестированием подвергаются испытаниям на стандартных бенчмарках без дополнительной подготовки. Мы просто даём модели задачу из теста и смотрим, как она справляется. Для каждого теста используется стандартная инструкция с описанием задачи. Например, модель получает задачу "Решите уравнение 2x + 5 = 13" и должна ответить, что x = 4. Важно отметить, что все наши данные об исполнении моделей в 0-shot режиме подтверждаются и тщательно проверяются нашей командой, чтобы убедиться в их точности. • Self-reported

76.4%

Natural Questions

5-shot Контекстное обучение, также известное как "обучение в контексте" (in-context learning, ICL), позволяет языковым моделям (LLM) усваивать новые задачи из нескольких примеров, представленных в промпте, без дополнительного обучения. В этой работе мы исследуем вопрос о том, как LLM проводят вычисления для решения задач. Мы изучаем эффективность разных инструкций по принятию решений для математических и рассуждательных задач, от простого запроса окончательного ответа до просьбы привести подробные рассуждения. Мы рассматриваем пять инструкций: 1) стандартная, 2) обоснование ответа, 3) поэтапные рассуждения, 4) выдача только ответа, и 5) объяснение шагов после получения правильного ответа. Мы оцениваем эти инструкции на задачах из пяти датасетов, охватывающих различные математические и рассуждательные навыки, и проверяем три модели: GPT-3.5 Turbo, GPT-4, и Claude 2. В зависимости от сложности задачи поэтапные рассуждения могут повысить производительность на 6-53% по сравнению с выдачей только ответа. Наши результаты показывают, что вынужденные рассуждения могут привести к неопределенному эффекту на легких задачах, но значительно улучшают производительность на сложных задачах. Метаданные решения, такие как время ответа, могут использоваться для прогнозирования, когда рассуждения будут полезны. Мы также демонстрируем, что производительность модели может быть улучшена, если не использовать рассуждения на легких задачах и использовать их на сложных задачах. • Self-reported

15.5%

PIQA

Обычное инференсное вычисление - 0-shot промпт - это когда модель использует свои веса, чтобы непосредственно ответить на вопрос, без примеров подобных вопросов. Это отражает производительность модели без каких-либо дополнительных инструкций о том, как отвечать на определенные типы вопросов. 0-shot подход особенно актуален для новых или необычных задач, где модель должна полагаться только на свои базовые знания и способности. • Self-reported

78.9%

Social IQa

Метод 0-shot (или "нулевая демонстрация") - это способ тестирования модели искусственного интеллекта, при котором модель сталкивается с новой задачей без каких-либо предварительных примеров или указаний о том, как ее решать. Модель должна опираться исключительно на знания, усвоенные во время предварительного обучения. В 0-shot тестировании, модели предоставляется только базовая инструкция и задача, которую нужно выполнить. Например, модель может получить вопрос или проблему без дополнительного контекста, примеров решения или демонстраций. Этот метод особенно важен для оценки фундаментальных способностей модели и ее обобщающей способности. 0-shot тестирование позволяет понять, насколько хорошо модель может применять свои знания к совершенно новым ситуациям или задачам, что является ключевым аспектом истинного интеллекта. Хотя другие методы, такие как few-shot (с несколькими примерами) могут улучшить производительность на конкретных задачах, 0-shot тестирование часто считается более чистой мерой истинных способностей модели, поскольку оно исключает возможность того, что модель просто копирует шаблоны из предоставленных примеров. • Self-reported

48.8%

TriviaQA

5-shot Метод 5-shot основан на наблюдении, что результаты LLM могут быть повышены путем предоставления нескольких примеров выполнения задачи перед тем, как модель попытается решить ее самостоятельно. Подход: 1. Для каждой задачи из выбранного датасета создаются 5 аналогичных задач того же типа и уровня сложности. 2. Модели показывают 5 подготовленных примеров вместе с их подробными решениями. 3. Только после этого модели предлагается решить целевую задачу. Преимущества метода: • Позволяет модели наблюдать и изучать шаблоны решения задач определенного типа • Не требует обновления весов модели • Значительно улучшает результаты на сложных математических и логических задачах • Может быть настроен для конкретных доменов знаний Ограничения: • Требует тщательной подготовки примеров • Увеличивает контекстное окно, что может быть проблемой для моделей с ограниченным контекстом • Примеры должны быть действительно аналогичными, иначе это может сбить модель с толку Примечание: Особенно эффективен при применении в сочетании с Chain-of-Thought prompting, где 5 примеров демонстрируют не только ответы, но и полный ход рассуждений. • Self-reported

60.8%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

26 июня 2025 г.

Последнее обновление

19 июля 2025 г.