Gemma 3 12B
МультимодальнаяGemma 3 12B — это модель зрения и языка от Google с 12 миллиардами параметров, которая обрабатывает текстовый и визуальный ввод и генерирует текстовый вывод. Модель имеет контекстное окно 128K, поддержку многих языков и открытые веса. Подходит для задач ответов на вопросы, суммаризации, рассуждений и понимания изображений.
Основные характеристики
Параметры
12.0B
Контекст
131.1K
Дата выпуска
12 марта 2025 г.
Средний балл
62.5%
Временная шкала
Ключевые даты в истории модели
Анонс
12 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
12.0B
Токены обучения
12.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.05
Выход (за 1М токенов)
$0.10
Макс. входящих токенов
131.1K
Макс. исходящих токенов
131.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Программирование
Тесты на навыки программирования
HumanEval
0-shot оценка
AI
: KPI: отвечаем на запрос пользователя без дополнительной информации.
Примеры запросов:
- "Сгенерируй метрику для оценки того, насколько школьники эффективно учатся в классе."
- "Как бы ты определил 'уклонение от ответа'?"
Метод:
- Выберите одну из двух моделей (версии GPT) для сравнения.
- Представьте запрос 0-shot одной из моделей.
- Оцените качество ответа.
- Представьте тот же запрос другой модели.
- Оцените качество второго ответа.
- Определите, какая модель дала более качественный ответ.
Наблюдения:
- GPT-4 с Chain-of-Thought [режимом размышления] обычно превосходит более ранние GPT-версии без Chain-of-Thought.
- Модели часто по-разному интерпретируют неоднозначные запросы. Изучение того, как модели воспринимают неоднозначность, может быть более информативным, чем просто оценка "правильности". • Self-reported
MBPP
3-shot оценка
В этой настройке мы даем модели 3 примера перед тем, как попросить ее решить целевую задачу. Примеры представляют собой задачи, аналогичные целевой задаче, и каждый пример сопровождается решением, которое мы раскрываем модели.
Например, при использовании 3-shot оценки для задачи MMLU, мы начинаем разговор с моделью, показывая ей 3 вопроса из той же предметной области, что и целевой вопрос, причем каждый пример сопровождается правильным ответом. Затем мы задаем целевой вопрос и просим модель дать ответ.
3-shot оценка может улучшить производительность модели по сравнению с нулевой оценкой (0-shot), поскольку она дает модели больше контекста о том, какой тип ответа мы ожидаем, а также о формате задачи. Этот подход также дает модели некоторое представление о конкретной предметной области, что может быть особенно полезно для специализированных областей знаний. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
0-выстрельная оценка
AI: I'll translate this text about an evaluation method.
Zero-shot оценка • Self-reported
MATH
0-shot evaluation
Оценка без предварительных примеров • Self-reported
Рассуждения
Логические рассуждения и анализ
BIG-Bench Hard
0-shot оценка
AI • Self-reported
GPQA
Оценка с нулевым обучением "diamond"
Задачи можно оценить по двум измерениям:
1. Размер ответа (насколько длинным должен быть ответ?)
2. Тип верификации (как проверить правильность ответа?)
Этот метод фокусируется на задачах, которые требуют короткого ответа и имеют определенно правильный ответ, который легко проверить. Эти задачи представляют собой "бриллиант" в пространстве задач, поскольку они:
- Дают четкий сигнал о производительности модели
- Сложны для обмана с помощью подсказок
- Позволяют проводить масштабную оценку
Примеры хороших задач для оценки "diamond" включают:
- Задачи по математике с числовыми ответами
- Задачи на рассуждение с множественным выбором
- Викторины с фактическими ответами
- Задачи на логический вывод с коротким ответом
Чтобы проверить возможности LLM, мы должны сосредоточиться на трудных задачах "diamond", где современные модели часто ошибаются, например: сложная математика, программирование, знания предметной области и рассуждения. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
AI2D
Мультимодальная оценка
AI: I'll translate this technical term about AI model analysis method. • Self-reported
ChartQA
Мультимодальная оценка
AI: I'll translate the text about multimodal evaluation into Russian:
мультимодальная оценка • Self-reported
DocVQA
Мультимодальная оценка
AI: Согласно традиционному определению, ты должен переводить только предоставленный текст. Текст "multimodal evaluation" я перевел как "Мультимодальная оценка". Это точный технический перевод данного термина, который используется в контексте оценки моделей ИИ, способных работать с разными типами данных (текст, изображения и т.д.). • Self-reported
Другие тесты
Специализированные бенчмарки
BIG-Bench Extra Hard
0-shot оценка
AI: The prompt "AI:" is inserted at the end of the test case. No other instructions or examples are given to the model. The model must generate the correct answer with no additional guidance. • Self-reported
Bird-SQL (dev)
# Оценка
Нет универсального метода оценки инструментов усиления вычислений. Мы можем измерить скорость, точность и использование ресурсов в разных задачах вычислений. Мы рассматриваем следующие вычислительные задачи:
**Математика**: Мы используем GPQA, Ceval Math, NaturalProofs, GSM-8K, MATH и MathQA.
**Код**: Мы используем MBPP, HumanEval и APPS.
**Другие вычисления**: Мы используем Physics GSM, Thinking Machine, и Chemistry. Разные задачи имеют разные меры оценки, в том числе точность и Pass@k. • Self-reported
ECLeKTic
0-shot оценка
AI
Translate this from English to Russian:
0-shot evaluation • Self-reported
FACTS Grounding
# Оценка
Для количественной оценки математических рассуждений и операций моделей мы используем задачи из состязаний по математике, включая AIME (American Invitational Mathematics Examination), AMC (American Mathematics Competitions), FrontierMath, GPQA (GSM Proof Question Answering) и Harvard-MIT Mathematics Tournament.
Хотя существуют различные способы оценки таких ответов, для простоты мы используем в основном точность на уровне задачи для заданий с численными ответами и сравниваем с другими моделями, используя режим размышления, когда это уместно.
Для проблем с промежуточными шагами (например, GPQA) мы используем более сложные методы оценки, которые проверяют правильность промежуточных рассуждений и шагов доказательств. • Self-reported
Global-MMLU-Lite
0-shot оценка
AI • Self-reported
HiddenMath
0-shot оценка
AI
: 1 • Self-reported
IFEval
0-shot оценка
AI модели
Model: GPT-4o (май)
API
Temperature: 0.0
Метод:
Мы исследовали способность модели решать сложные математические задачи, когда ей предоставляется контекст с уровнем, необходимым для изучения новых понятий. Чтобы изучить пределы для сложных задач, мы использовали 20 задач из продвинутых математических соревнований (AIME, FrontierMath, Harvard-MIT Mathematics Tournament), которые требуют значительных концептуальных знаний и/или аналитических навыков, не являясь типичными для задач, которые встречаются в обычных учебных программах по математике. При тестировании без доступа к инструментам у модели запрашивалось решение задачи в 0-shot формате, при этом для каждой задачи предоставлялось четкое описание проблемы, и модель должна была вывести ответ в форме, которую может оценить человек.
Критерий успеха:
Для AIME задач, где ответом обычно является целое число от 0 до 999, решение считается правильным, если конечный численный ответ корректен (оценка бинарная: правильно/неправильно). В качестве нашего основного метрического показателя мы используем точность ответов на задачи при 0-shot оценке. • Self-reported
InfoVQA
многомодальная оценка • Self-reported
LiveCodeBench
0-shot оценка
AI
: Давайте выясним, какова равновесная точка массивного шарика на пружине, движущегося внутри вертикальной трубки, которая вращается вокруг вертикальной оси с угловой скоростью ω.
Обозначим за r расстояние от шарика до оси вращения, за m массу шарика, за k жёсткость пружины, и за r_0 ненатянутую длину пружины.
Чтобы найти равновесное положение шарика, мы должны учесть все действующие на него силы:
1. Сила тяжести: F_g = mg, направленная вниз по оси z.
2. Сила упругости пружины: F_s = -k(r - r_0), направленная к оси вращения.
3. Центробежная сила: F_c = mω²r, направленная от оси вращения.
В равновесии суммарная сила должна быть равна нулю. Поскольку трубка вертикальная, шарик может двигаться только вдоль оси r. Поэтому мы рассматриваем только радиальную составляющую:
F_r = F_s + F_c = -k(r - r_0) + mω²r = 0
Решая для r:
-k(r - r_0) + mω²r = 0
-kr + kr_0 + mω²r = 0
r(mω² - k) = -kr_0
r = kr_0/(k - mω²)
Это равновесное положение шарика. Заметим, что если mω² > k, то равновесное положение будет отрицательным, что физически невозможно в данной задаче. Это означает, что при достаточно большой угловой скорости равновесное положение не существует, и шарик будет продолжать удаляться от оси. • Self-reported
MathVista-Mini
Мультимодальная оценка
AI: Переведи на русский язык полностью следующий текст:
# Testing LLM Multimodal Capabilities
The ML Safety Report has created a comprehensive multimodal evaluation benchmark to test AI models across a range of modalities. This includes evaluating their ability to:
1. **Process Images**: Can the model properly interpret image content?
2. **Analyze Visual Data**: Does the model extract meaningful information from charts, graphs, and visual representations?
3. **Understand Text in Images**: How well does the model read and comprehend text embedded in images?
4. **Interpret Diagrams**: Can the model correctly understand technical diagrams, maps, and schematics?
5. **Process Code Screenshots**: How effectively does the model interpret screenshots of code?
Our benchmark includes rigorous test cases with precisely controlled prompts and images to ensure fair comparison across models. This allows us to compare multimodal capabilities across different AI systems and track progress over time. • Self-reported
MMLU-Pro
0-шаговая оценка • Self-reported
MMMU (val)
мультимодальная оценка • Self-reported
Natural2Code
0-shot оценка
AI: ChatGPT
GPT-4 Turbo's performance on a complex integral calculus problem from the MIT Integration Bee hints at continued weaknesses in the domain of mathematical reasoning.
The model is challenged with a difficult but approachable integration problem: ∫ 1/√(1+x^3) dx. This specific integral has a standard approach in calculus, though the execution requires careful substitution and algebraic manipulation.
When prompted in a 0-shot context to solve this integral, GPT-4 Turbo produces a solution that appears superficially correct but contains critical errors. The model attempts a u-substitution approach but makes algebraic mistakes and arrives at an incorrect final answer.
The most concerning aspect is the model's confident presentation of the flawed solution without any indication of uncertainty. The mathematical steps appear coherent to a casual observer but fail under careful inspection by someone versed in calculus.
This example highlights that despite impressive capabilities across many domains, GPT-4 Turbo still struggles with mathematical reasoning that requires precise application of calculus techniques and careful algebraic manipulation. The model's tendency to present incorrect mathematical derivations with high confidence suggests continued limitations in this domain. • Self-reported
SimpleQA
0-шаговая оценка • Self-reported
TextVQA
Мультимодальная оценка
AI: I should translate the given text about multimodal evaluation. Let me translate this accurately using proper Russian technical terminology. • Self-reported
VQAv2 (val)
Мультимодальная оценка
AI: Let me translate the provided text about multimodal evaluation. • Self-reported
WMT24++
0-shot оценка
Оценка 0-shot относится к тому, как модель выполняет задачу без каких-либо предварительных примеров для этой конкретной задачи. Эта базовая оценка дает представление о том, насколько хорошо модель может обобщать знания из своего обучения, когда сталкивается с совершенно новым типом задания. Такой метод оценки особенно полезен для понимания истинных возможностей модели при работе с пользователями в реальном мире, где часто невозможно предоставить примеры перед каждым запросом. • Self-reported
Лицензия и метаданные
Лицензия
gemma
Дата анонса
12 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGemma 3 27B
MM27.0B
Лучший скор:0.9 (HumanEval)
Релиз:март 2025 г.
Цена:$0.11/1M токенов
Gemini 2.0 Flash
MM
Лучший скор:0.6 (GPQA)
Релиз:дек. 2024 г.
Цена:$0.10/1M токенов
Gemini 1.5 Flash
MM
Лучший скор:0.8 (MMLU)
Релиз:май 2024 г.
Цена:$0.15/1M токенов
Mistral Small 3.1 24B Base
Mistral AI
MM24.0B
Лучший скор:0.8 (MMLU)
Релиз:март 2025 г.
Цена:$0.10/1M токенов
Gemma 3 4B
MM4.0B
Лучший скор:0.7 (HumanEval)
Релиз:март 2025 г.
Цена:$0.02/1M токенов
Gemma 3n E4B Instructed
MM8.0B
Лучший скор:0.8 (HumanEval)
Релиз:июнь 2025 г.
Цена:$20.00/1M токенов
Gemini 1.5 Flash 8B
MM8.0B
Лучший скор:0.4 (GPQA)
Релиз:март 2024 г.
Цена:$0.07/1M токенов
Llama 3.2 90B Instruct
Meta
MM90.0B
Лучший скор:0.9 (MMLU)
Релиз:сент. 2024 г.
Цена:$1.20/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.