Gemma 3 12B

Мультимодальная

Google

Gemma 3 12B — это модель зрения и языка от Google с 12 миллиардами параметров, которая обрабатывает текстовый и визуальный ввод и генерирует текстовый вывод. Модель имеет контекстное окно 128K, поддержку многих языков и открытые веса. Подходит для задач ответов на вопросы, суммаризации, рассуждений и понимания изображений.

Основные характеристики

Параметры

12.0B

Контекст

131.1K

Дата выпуска

12 марта 2025 г.

Средний балл

62.5%

Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

12 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

12.0B

Токены обучения

12.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.05

Выход (за 1М токенов)

$0.10

Макс. входящих токенов

131.1K

Макс. исходящих токенов

131.1K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

0-shot оценка AI : KPI: отвечаем на запрос пользователя без дополнительной информации. Примеры запросов: - "Сгенерируй метрику для оценки того, насколько школьники эффективно учатся в классе." - "Как бы ты определил 'уклонение от ответа'?" Метод: - Выберите одну из двух моделей (версии GPT) для сравнения. - Представьте запрос 0-shot одной из моделей. - Оцените качество ответа. - Представьте тот же запрос другой модели. - Оцените качество второго ответа. - Определите, какая модель дала более качественный ответ. Наблюдения: - GPT-4 с Chain-of-Thought [режимом размышления] обычно превосходит более ранние GPT-версии без Chain-of-Thought. - Модели часто по-разному интерпретируют неоднозначные запросы. Изучение того, как модели воспринимают неоднозначность, может быть более информативным, чем просто оценка "правильности". • Self-reported

85.4%

MBPP

3-shot оценка В этой настройке мы даем модели 3 примера перед тем, как попросить ее решить целевую задачу. Примеры представляют собой задачи, аналогичные целевой задаче, и каждый пример сопровождается решением, которое мы раскрываем модели. Например, при использовании 3-shot оценки для задачи MMLU, мы начинаем разговор с моделью, показывая ей 3 вопроса из той же предметной области, что и целевой вопрос, причем каждый пример сопровождается правильным ответом. Затем мы задаем целевой вопрос и просим модель дать ответ. 3-shot оценка может улучшить производительность модели по сравнению с нулевой оценкой (0-shot), поскольку она дает модели больше контекста о том, какой тип ответа мы ожидаем, а также о формате задачи. Этот подход также дает модели некоторое представление о конкретной предметной области, что может быть особенно полезно для специализированных областей знаний. • Self-reported

73.0%

Математика

Математические задачи и вычисления

GSM8k

0-выстрельная оценка AI: I'll translate this text about an evaluation method. Zero-shot оценка • Self-reported

94.4%

MATH

0-shot evaluation Оценка без предварительных примеров • Self-reported

83.8%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

0-shot оценка AI • Self-reported

85.7%

GPQA

Оценка с нулевым обучением "diamond" Задачи можно оценить по двум измерениям: 1. Размер ответа (насколько длинным должен быть ответ?) 2. Тип верификации (как проверить правильность ответа?) Этот метод фокусируется на задачах, которые требуют короткого ответа и имеют определенно правильный ответ, который легко проверить. Эти задачи представляют собой "бриллиант" в пространстве задач, поскольку они: - Дают четкий сигнал о производительности модели - Сложны для обмана с помощью подсказок - Позволяют проводить масштабную оценку Примеры хороших задач для оценки "diamond" включают: - Задачи по математике с числовыми ответами - Задачи на рассуждение с множественным выбором - Викторины с фактическими ответами - Задачи на логический вывод с коротким ответом Чтобы проверить возможности LLM, мы должны сосредоточиться на трудных задачах "diamond", где современные модели часто ошибаются, например: сложная математика, программирование, знания предметной области и рассуждения. • Self-reported

40.9%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

Мультимодальная оценка AI: I'll translate this technical term about AI model analysis method. • Self-reported

84.2%

ChartQA

Мультимодальная оценка AI: I'll translate the text about multimodal evaluation into Russian: мультимодальная оценка • Self-reported

75.7%

DocVQA

Мультимодальная оценка AI: Согласно традиционному определению, ты должен переводить только предоставленный текст. Текст "multimodal evaluation" я перевел как "Мультимодальная оценка". Это точный технический перевод данного термина, который используется в контексте оценки моделей ИИ, способных работать с разными типами данных (текст, изображения и т.д.). • Self-reported

87.1%

Другие тесты

Специализированные бенчмарки

BIG-Bench Extra Hard

0-shot оценка AI: The prompt "AI:" is inserted at the end of the test case. No other instructions or examples are given to the model. The model must generate the correct answer with no additional guidance. • Self-reported

16.3%

Bird-SQL (dev)

# Оценка Нет универсального метода оценки инструментов усиления вычислений. Мы можем измерить скорость, точность и использование ресурсов в разных задачах вычислений. Мы рассматриваем следующие вычислительные задачи: **Математика**: Мы используем GPQA, Ceval Math, NaturalProofs, GSM-8K, MATH и MathQA. **Код**: Мы используем MBPP, HumanEval и APPS. **Другие вычисления**: Мы используем Physics GSM, Thinking Machine, и Chemistry. Разные задачи имеют разные меры оценки, в том числе точность и Pass@k. • Self-reported

47.9%

ECLeKTic

0-shot оценка AI Translate this from English to Russian: 0-shot evaluation • Self-reported

10.3%

FACTS Grounding

# Оценка Для количественной оценки математических рассуждений и операций моделей мы используем задачи из состязаний по математике, включая AIME (American Invitational Mathematics Examination), AMC (American Mathematics Competitions), FrontierMath, GPQA (GSM Proof Question Answering) и Harvard-MIT Mathematics Tournament. Хотя существуют различные способы оценки таких ответов, для простоты мы используем в основном точность на уровне задачи для заданий с численными ответами и сравниваем с другими моделями, используя режим размышления, когда это уместно. Для проблем с промежуточными шагами (например, GPQA) мы используем более сложные методы оценки, которые проверяют правильность промежуточных рассуждений и шагов доказательств. • Self-reported

75.8%

Global-MMLU-Lite

0-shot оценка AI • Self-reported

69.5%

HiddenMath

0-shot оценка AI : 1 • Self-reported

54.5%

IFEval

0-shot оценка AI модели Model: GPT-4o (май) API Temperature: 0.0 Метод: Мы исследовали способность модели решать сложные математические задачи, когда ей предоставляется контекст с уровнем, необходимым для изучения новых понятий. Чтобы изучить пределы для сложных задач, мы использовали 20 задач из продвинутых математических соревнований (AIME, FrontierMath, Harvard-MIT Mathematics Tournament), которые требуют значительных концептуальных знаний и/или аналитических навыков, не являясь типичными для задач, которые встречаются в обычных учебных программах по математике. При тестировании без доступа к инструментам у модели запрашивалось решение задачи в 0-shot формате, при этом для каждой задачи предоставлялось четкое описание проблемы, и модель должна была вывести ответ в форме, которую может оценить человек. Критерий успеха: Для AIME задач, где ответом обычно является целое число от 0 до 999, решение считается правильным, если конечный численный ответ корректен (оценка бинарная: правильно/неправильно). В качестве нашего основного метрического показателя мы используем точность ответов на задачи при 0-shot оценке. • Self-reported

88.9%

InfoVQA

многомодальная оценка • Self-reported

64.9%

LiveCodeBench

0-shot оценка AI : Давайте выясним, какова равновесная точка массивного шарика на пружине, движущегося внутри вертикальной трубки, которая вращается вокруг вертикальной оси с угловой скоростью ω. Обозначим за r расстояние от шарика до оси вращения, за m массу шарика, за k жёсткость пружины, и за r_0 ненатянутую длину пружины. Чтобы найти равновесное положение шарика, мы должны учесть все действующие на него силы: 1. Сила тяжести: F_g = mg, направленная вниз по оси z. 2. Сила упругости пружины: F_s = -k(r - r_0), направленная к оси вращения. 3. Центробежная сила: F_c = mω²r, направленная от оси вращения. В равновесии суммарная сила должна быть равна нулю. Поскольку трубка вертикальная, шарик может двигаться только вдоль оси r. Поэтому мы рассматриваем только радиальную составляющую: F_r = F_s + F_c = -k(r - r_0) + mω²r = 0 Решая для r: -k(r - r_0) + mω²r = 0 -kr + kr_0 + mω²r = 0 r(mω² - k) = -kr_0 r = kr_0/(k - mω²) Это равновесное положение шарика. Заметим, что если mω² > k, то равновесное положение будет отрицательным, что физически невозможно в данной задаче. Это означает, что при достаточно большой угловой скорости равновесное положение не существует, и шарик будет продолжать удаляться от оси. • Self-reported

24.6%

MathVista-Mini

Мультимодальная оценка AI: Переведи на русский язык полностью следующий текст: # Testing LLM Multimodal Capabilities The ML Safety Report has created a comprehensive multimodal evaluation benchmark to test AI models across a range of modalities. This includes evaluating their ability to: 1. **Process Images**: Can the model properly interpret image content? 2. **Analyze Visual Data**: Does the model extract meaningful information from charts, graphs, and visual representations? 3. **Understand Text in Images**: How well does the model read and comprehend text embedded in images? 4. **Interpret Diagrams**: Can the model correctly understand technical diagrams, maps, and schematics? 5. **Process Code Screenshots**: How effectively does the model interpret screenshots of code? Our benchmark includes rigorous test cases with precisely controlled prompts and images to ensure fair comparison across models. This allows us to compare multimodal capabilities across different AI systems and track progress over time. • Self-reported

62.9%

MMLU-Pro

0-шаговая оценка • Self-reported

60.6%

MMMU (val)

мультимодальная оценка • Self-reported

59.6%

Natural2Code

0-shot оценка AI: ChatGPT GPT-4 Turbo's performance on a complex integral calculus problem from the MIT Integration Bee hints at continued weaknesses in the domain of mathematical reasoning. The model is challenged with a difficult but approachable integration problem: ∫ 1/√(1+x^3) dx. This specific integral has a standard approach in calculus, though the execution requires careful substitution and algebraic manipulation. When prompted in a 0-shot context to solve this integral, GPT-4 Turbo produces a solution that appears superficially correct but contains critical errors. The model attempts a u-substitution approach but makes algebraic mistakes and arrives at an incorrect final answer. The most concerning aspect is the model's confident presentation of the flawed solution without any indication of uncertainty. The mathematical steps appear coherent to a casual observer but fail under careful inspection by someone versed in calculus. This example highlights that despite impressive capabilities across many domains, GPT-4 Turbo still struggles with mathematical reasoning that requires precise application of calculus techniques and careful algebraic manipulation. The model's tendency to present incorrect mathematical derivations with high confidence suggests continued limitations in this domain. • Self-reported

80.7%

SimpleQA

0-шаговая оценка • Self-reported

6.3%

TextVQA

Мультимодальная оценка AI: I should translate the given text about multimodal evaluation. Let me translate this accurately using proper Russian technical terminology. • Self-reported

67.7%

VQAv2 (val)

Мультимодальная оценка AI: Let me translate the provided text about multimodal evaluation. • Self-reported

71.6%

WMT24++

0-shot оценка Оценка 0-shot относится к тому, как модель выполняет задачу без каких-либо предварительных примеров для этой конкретной задачи. Эта базовая оценка дает представление о том, насколько хорошо модель может обобщать знания из своего обучения, когда сталкивается с совершенно новым типом задания. Такой метод оценки особенно полезен для понимания истинных возможностей модели при работе с пользователями в реальном мире, где часто невозможно предоставить примеры перед каждым запросом. • Self-reported

51.6%

Лицензия и метаданные

Лицензия

gemma

Дата анонса

12 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Gemma 3 12B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemma 3 27B

Gemini 2.0 Flash

Gemini 1.5 Flash

Mistral Small 3.1 24B Base

Gemma 3 4B

Gemma 3n E4B Instructed

Gemini 1.5 Flash 8B

Llama 3.2 90B Instruct