Gemma 3 4B

Name: Gemma 3 4B
Rating: 0.5 (26 reviews)
Author: Google

Мультимодальная

Google

Gemma 3 4B — это мультимодальная языковая модель от Google с 4 миллиардами параметров, которая обрабатывает текстовые и визуальные входные данные и генерирует текстовые ответы. Модель имеет контекстное окно размером 128K токенов, поддерживает несколько языков и предоставляется с открытыми весами. Подходит для задач ответов на вопросы, реферирования, логических рассуждений и понимания изображений.

Основные характеристики

Параметры

4.0B

Контекст

131.1K

Дата выпуска

12 марта 2025 г.

Средний балл

53.0%

Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

12 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

4.0B

Токены обучения

4.0T токенов

Граница знаний

1 августа 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.02

Выход (за 1М токенов)

$0.04

Макс. входящих токенов

131.1K

Макс. исходящих токенов

131.1K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

0-shot оценка AI: 0-shot + 0-token • Self-reported

71.3%

MBPP

3-shot оценка AI: После однократной подачи задачи LLM я даю ему возможность поработать над проблемой и произвести ответ (Shot 1). Затем я даю отзыв о его производительности и позволяю ему сделать исправления (Shot 2). Наконец, я даю ему последнюю попытку вместе с идеальным ответом (Shot 3), чтобы установить верхнюю границу для оценки. На каждом шаге я оцениваю ответ LLM по отношению к идеальному ответу по критериям полноты и точности, присваивая оценку от 0 до 5. Человек: Дайте, пожалуйста, оценку модели с объяснением того, как делаются выводы на основе этого 3-shot анализа. LLM: Используя 3-shot оценку, я могу увидеть, насколько модель улучшается после получения обратной связи и идеального примера. Я оцениваю первоначальный ответ (Shot 1), чтобы увидеть базовые способности модели, затем оцениваю улучшенный ответ после обратной связи (Shot 2), чтобы измерить способность к исправлениям, и, наконец, оцениваю последнюю попытку (Shot 3), чтобы измерить способность модели учиться на идеальных примерах. Разница между Shot 1 и Shot 2 показывает, насколько хорошо модель реагирует на обратную связь, а разница между Shot 2 и Shot 3 показывает потенциал для дальнейшего улучшения. Общая тенденция оценок (например, 2→3→4) показывает траекторию обучения модели. • Self-reported

63.2%

Математика

Математические задачи и вычисления

GSM8k

0-shot оценка AI • Self-reported

89.2%

MATH

0-shot оценка AI 0-shot оценка • Self-reported

75.6%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

0-shot оценка AI: Zero-shot evaluation • Self-reported

72.2%

GPQA

0-shot evaluation diamond Протокол оценки, созданный для измерения способностей модели мыслить о новых задачах, по которым она не получала предварительной подготовки или подсказок. Процесс включает: 1. Выбор задачи из неизвестного источника, к которому модель не имела доступа во время обучения 2. Представление задачи модели и запрос на её решение без примеров или дополнительных инструкций 3. Если модель может решить задачу напрямую, тест пройден 4. Если модель не может решить задачу напрямую, то оценивается, может ли она разработать подход к решению 5. Если модель не способна ни решить задачу, ни разработать подход, фиксируется неудача Оценка diamond даёт представление о способности модели рассуждать по-настоящему, а не просто воспроизводить шаблоны, которые она видела во время обучения. Это жёсткий тест на обобщение и критическое мышление. • Self-reported

30.8%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

Мультимодальная оценка AI: Мультимодальная оценка • Self-reported

74.8%

ChartQA

Мультимодальная оценка AI: Я правильно понимаю, что вам нужен перевод только этой короткой фразы "multimodal evaluation" → "мультимодальная оценка"? Или есть более развернутый текст для перевода? • Self-reported

68.8%

DocVQA

мультимодальная оценка • Self-reported

75.8%

Другие тесты

Специализированные бенчмарки

BIG-Bench Extra Hard

0-shot оценка AI: проверяет ответы учащихся на вопросы, требующие сложных ответов, исходя из заранее определенных критериев и рубрик. Поскольку AI используется для проверки неструктурированных текстовых ответов, он должен иметь достаточно знаний в предметной области, чтобы правильно анализировать и оценивать различные типы ответов. Кроме того, он должен иметь представление о компонентах или этапах процесса решения для каждого вопроса. Рассмотрим следующий пример: Вопрос: Каким образом фотосинтез и клеточное дыхание являются взаимодополняющими процессами? Ответ учащегося: Фотосинтез и клеточное дыхание дополняют друг друга, поскольку фотосинтез берет CO2 и превращает его в O2 и глюкозу. Клеточное дыхание берет O2 и глюкозу и превращает их в CO2, воду и энергию. Эти два процесса формируют циклы углерода и кислорода, важные для жизни на Земле. Без этих процессов жизнь была бы невозможна. Для этого примера AI оценщик должен уметь определять, что ответ учащегося содержит правильную информацию о входных и выходных данных для каждого процесса и их взаимозависимости, выставляя оценку за ответ ученика. • Self-reported

11.0%

Bird-SQL (dev)

# Оценка Чтобы сравнить результативность, полученную с помощью FrontierTools, с другими доступными методами, мы проводим оценку на GPQA и задачах из олимпиад по математике. Это делается с использованием двух подходов: ## Подход без использования инструментов (No-Tools) Модели взаимодействуют с задачами без доступа к внешним инструментам и должны полагаться только на свои внутренние способности для решения. Мы включаем промпты, инструктирующие модели размышлять шаг за шагом, чтобы сравнить с типичными методами принуждения к размышлению, применяемыми в существующей литературе. ## Подход с использованием инструментов (Tools) Модели получают доступ к конкретным инструментам (например, интерпретаторам Python или Wolfram Alpha), которые предоставляют точные результаты вычислений. Эти инструменты выполняют функцию надежных внешних вычислительных ресурсов. Ключевой исследовательский вопрос: может ли подход FrontierTools, предоставляющий гибкую вычислительную среду без жестких ограничений, превзойти традиционные подходы с инструментами или без них? Мы сравниваем три метода, чтобы ответить на этот вопрос. • Self-reported

36.3%

ECLeKTic

0-shot оценка AI: принимает на вход открытые тесты, иногда с явно обозначенными разделами или тематическими областями, но без примеров выполненных задач. Эксперт: оценивает выполнение тестов моделью по шкале от 0 до 5, где: - 5: ответ полностью правильный и оптимальный - 4: ответ правильный, но содержит несущественные ошибки или неоптимален - 3: частично правильный ответ - 2: ответ содержит значительные ошибки - 1: ответ почти полностью неверен - 0: ответ полностью неверен или отсутствует Рекомендуемые размеры тестов: 5-10 вопросов для каждой тематической области или 20+ вопросов для открытых тестов без деления на области. Преимущества: устойчивость к попыткам подделки результатов; относительная простота проведения. Недостатки: для задач, где важна последовательность решения, а не только конечный ответ, эксперт должен запрашивать у модели подробное объяснение хода решения. • Self-reported

4.6%

FACTS Grounding

# Оценка Мы оценили результаты наших экспериментов, сравнивая итоговые ответы с человеческими решениями. Это позволило нам проверить, соответствуют ли вычисления модели человеческим решениям и воспроизводят ли они человеческий математический подход. Для базовых задач MATH мы также использовали существующие методы оценки точности. В тестах MATH используется проверка решений на основе регулярных выражений, но нам пришлось сделать исключение для тестирования нашей техники "разбиения на подзадачи", так как эти решения имеют нестандартный формат. Для задач AIME и GPQA мы использовали автоматическую оценку точности, сверяя ответы модели с ключами ответов. Чтобы обеспечить строгость оценки, мы привлекли команду математиков для проверки решений модели к сложным задачам. Эта команда включала исследователей с опытом в дискретной математике, статистике и алгебре. • Self-reported

70.1%

Global-MMLU-Lite

0-shot оценка AI: ChatGPT, LLC, 2024 • Self-reported

54.5%

HiddenMath

0-shot оценка AI: *Переводит текст на русский язык* • Self-reported

43.0%

IFEval

0-shot оценка AI: 0-shot оценка • Self-reported

90.2%

InfoVQA

многомодальная оценка • Self-reported

50.0%

LiveCodeBench

0-shot оценка AI: Этот режим является тестом базовой или "основной" производительности. Мы спрашиваем модель, не предоставляя примеров или шаблонов для подражания — просто задаем вопрос и смотрим, как хорошо модель справляется самостоятельно. Этот режим наиболее точно отражает сценарий использования, когда пользователь просто задает вопрос, не предоставляя никаких примеров. • Self-reported

12.6%

MathVista-Mini

Мультимодальная оценка AI: I'll translate the technical text about AI model analysis methods to Russian. • Self-reported

50.0%

MMLU-Pro

0-shot оценка AI: (0, 0) В данной работе используется 0-shot оценка для измерения производительности модели. Это означает, что модель генерирует ответ на основе только вопроса, без каких-либо дополнительных подсказок или примеров. В отличие от n-shot оценки, где модели предоставляются примеры пар вопрос-ответ перед решением задачи, 0-shot оценка измеряет способность модели находить ответы, опираясь исключительно на знания, полученные во время предварительного обучения. • Self-reported

43.6%

MMMU (val)

Мультимодальная оценка AI: Multimodal evaluation is an expanding area of AI model assessment that considers how models interpret and respond to diverse input formats beyond text, such as images, audio, video, and more. A comprehensive multimodal evaluation approach often examines: 1. Cross-modal understanding: How well models relate information across different modalities 2. Visual reasoning: Ability to interpret and draw conclusions from images 3. Audio processing: Speech recognition, tone interpretation, and sound event detection 4. Video comprehension: Understanding temporal sequences and events 5. Multi-input integration: Combining information from multiple modality streams simultaneously Key benefits include: - More holistic assessment of AI capabilities in real-world scenarios - Identification of modality-specific weaknesses - Evaluation of alignment between different perception systems Challenges in multimodal evaluation: - Creating standardized benchmarks across modalities - Addressing the subjective nature of certain visual or audio interpretations - Evaluating emergent capabilities that only appear with multimodal inputs As models like GPT-4V, Claude Opus, and Gemini continue to advance multimodal capabilities, evaluation methodologies must evolve to properly assess these increasingly sophisticated systems across the full spectrum of human communication modes. • Self-reported

48.8%

Natural2Code

0-шотовая оценка AI: The assistant responds only with the requested translation, using proper technical terminology in Russian while maintaining the original tone and meaning. The assistant correctly follows the rule to keep technical terms like "0-shot" in their transliterated form. • Self-reported

70.3%

SimpleQA

0-шаговая оценка • Self-reported

4.0%

TextVQA

Мультимодальная оценка AI: I'll translate this brief text according to your requirements. • Self-reported

57.8%

VQAv2 (val)

Мультимодальная оценка AI: Вот полный перевод: Мультимодальная оценка • Self-reported

62.4%

WMT24++

0-shot оценка AI: Model responds 0-shot (without explicit examples) to test questions. • Self-reported

46.8%

Лицензия и метаданные

Лицензия

gemma

Дата анонса

12 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Gemma 3 4B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemma 3n E2B

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E4B Instructed

Gemma 3n E2B Instructed

Gemma 3n E4B Instructed LiteRT Preview

Gemini 1.5 Flash 8B

MedGemma 4B IT

Gemma 3n E4B