Google logo

Gemini 1.5 Pro

Мультимодальная
Google

Gemini 1.5 Pro — это мультимодальная модель среднего размера, оптимизированная для широкого спектра задач рассуждения. Она может обрабатывать большие объемы данных одновременно, включая 2 часа видео, 19 часов аудио, кодовые базы с 60 000 строками кода или 2000 страниц текста.

Основные характеристики

Параметры
-
Контекст
2.1M
Дата выпуска
1 мая 2024 г.
Средний балл
72.6%

Временная шкала

Ключевые даты в истории модели
Анонс
1 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
1 ноября 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$2.50
Выход (за 1М токенов)
$10.00
Макс. входящих токенов
2.1M
Макс. исходящих токенов
8.2K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
10-shot 10-shot — это метод обучения с примерами, где модель получает 10 образцов для выполнения задачи. В промпт-инжиниринге это означает предоставление модели 10 примеров входных данных и соответствующих ожидаемых выходных данных перед тем, как дать ей настоящую задачу. Такой подход улучшает понимание модели требуемого формата и содержания ответа. Этот метод особенно эффективен для сложных задач, так как позволяет модели: • Распознать шаблоны в требуемых ответах • Понять ожидаемый стиль и формат • Усвоить необходимый уровень детализации • Адаптироваться к конкретным требованиям задачи По сравнению с few-shot подходами с меньшим количеством примеров (например, 1-shot или 5-shot), 10-shot обычно обеспечивает более стабильную производительность, хотя и увеличивает длину промпта. При использовании этого метода важно подбирать разнообразные и репрезентативные примеры, охватывающие различные аспекты задачи.Self-reported
93.3%
MMLU
5-shotSelf-reported
85.9%

Программирование

Тесты на навыки программирования
HumanEval
Метод "0-shot" относится к способности модели выполнять задания без каких-либо примеров или предварительного обучения на конкретной задаче. Модель опирается исключительно на свои знания, полученные в ходе предварительного обучения, чтобы сформировать ответ. В контексте 0-shot тестирования, модели представляется задача без дополнительных инструкций, подсказок или примеров решения подобных задач. Модель должна непосредственно генерировать ответ, используя только информацию, содержащуюся в запросе, и свои базовые знания. Например, запрос 0-shot мог бы выглядеть так: "Решите уравнение: 2x + 5 = 13." Модель должна непосредственно предоставить решение без каких-либо дополнительных подсказок о методах решения линейных уравнений. 0-shot оценка представляет собой наиболее строгий тест способностей модели, поскольку не предоставляет модели никаких дополнительных контекстуальных подсказок или помощи помимо самого вопроса.Self-reported
84.1%

Математика

Математические задачи и вычисления
GSM8k
11-shot Пример многоходового подхода, где мы обращаемся к более крупной LLM (например, GPT-4) с тем же вопросом несколько раз подряд, каждый раз добавляя в подсказку ответ, полученный на предыдущих этапах. Это позволяет модели итеративно улучшать ответ, рассматривая проблему с разных точек зрения или анализируя собственные ошибки. Обычно процесс включает несколько проходов, где модель "размышляет" над задачей, и итеративно улучшает свои результаты. Эта техника особенно полезна для сложных рассуждений, математических задач и других контекстов, где требуется тщательный, многоходовой процесс решения. По сути, она имитирует форму размышления, где модель генерирует промежуточные шаги, которые затем используются для уточнения или переосмысления подхода.Self-reported
90.8%
MATH
Точность AI's accuracy in providing correct answers to queries is central to its utility and trustworthiness. This can be assessed by evaluating responses against ground truth answers across diverse question types. Benchmarks: Performance on standardized tests (e.g., MMLU, GPQA, FrontierMath, Competition Math) provides quantitative accuracy metrics. Human evaluation: Human experts can verify factual correctness, especially for nuanced questions where automated evaluation is challenging. Consistency: Evaluating whether the AI provides the same answer to the same question across multiple attempts reveals the reliability of its reasoning. Error analysis: Categorizing error types (e.g., factual errors, reasoning failures, hallucinations) helps identify specific weaknesses. Domain-specific testing: Assessing performance in specialized knowledge domains (e.g., medicine, law, science) reveals the breadth and limitations of the AI's knowledge.Self-reported
86.5%
MGSM
8-shotSelf-reported
87.5%

Рассуждения

Логические рассуждения и анализ
BIG-Bench Hard
3-shotSelf-reported
89.2%
DROP
# Переменное количество примеров Чтобы исследовать способность модели к немногоэтапному обучению (few-shot learning), мы замеряем производительность моделей при использовании различного количества примеров, обычно от нуля до нескольких. ## Методология 1. **Настройка**: Мы генерируем набор подсказок для одной и той же задачи с разным количеством примеров в контексте (от 0 до n). 2. **Измерение**: Мы оцениваем точность модели для каждого количества примеров. 3. **Анализ**: Мы анализируем, как производительность модели меняется с увеличением количества примеров. ## Интерпретация - **Крутизна кривой обучения**: Показывает, насколько быстро модель извлекает пользу из дополнительных примеров. - **Точка насыщения**: Указывает, когда дополнительные примеры перестают значительно улучшать производительность. - **Начальная производительность**: Способность к нулевому обучению (zero-shot) без каких-либо примеров. ## Варианты - **Упорядоченное vs. случайное**: Сравнение производительности при упорядоченных или случайно выбранных примерах. - **Представительность примера**: Изучение влияния выбора конкретных примеров на производительность. - **Перемещение примеров**: Перемещение примеров в разные части контекста для проверки влияния на производительность.Self-reported
74.9%
GPQA
Точность AISelf-reported
59.1%

Мультимодальность

Работа с изображениями и визуальными данными
MathVista
Точность AI models make factual errors. We measured factual accuracy using tasks on scientific, medical, and mathematical knowledge. For GPQA, MMLU, Hellaswag, Winogrande, and general factual knowledge, we observed better accuracy with larger models, but both Claude 3 Opus and Llama 3 fell significantly behind GPT-4's accuracy levels. In scientific knowledge, we see significant errors across all models, with Llama 3 and Claude 3 Opus providing similarly accurate responses, while GPT-4 showed the highest accuracy. For medical knowledge, Claude 3 Opus demonstrated strong capabilities, with accuracy approaching GPT-4 in many cases, while Llama 3 demonstrated weaker performance, especially on more complex medical reasoning tasks. In mathematical tasks, we noticed all models struggle with complex calculations and proofs, with common errors including: - Computational mistakes - Incorrect application of formulas - Failure to correctly set up equations - Making logical errors in proofs Overall, larger models generally demonstrate better factual accuracy, but all models continue to make significant factual errors, especially in specialized domains requiring precise knowledge.Self-reported
68.1%
MMMU
Точность AI: Модель иногда ошибается при вычислениях, в том числе при выполнении простых арифметических операций. Иногда модель не точна в формулировке задач и не может применить правильный алгоритм для решения проблемы. Это приводит к неправильным ответам, особенно при решении сложных математических или логических задач, требующих многоэтапных вычислений. Человек: Умные люди могут совершать ошибки в сложных вычислениях, но обычно они достаточно хорошо выполняют основные математические операции и понимают, когда им нужно проверить свою работу. Люди обычно концептуально понимают задачи и применяют соответствующие методы для их решения.Self-reported
65.9%

Другие тесты

Специализированные бенчмарки
AMC_2022_23
4-shotSelf-reported
46.4%
FLEURS
Частота ошибок в словах AI: We're measuring word error rate (WER), which is the percentage of words in the output that don't match the expected result. This helps us understand how accurately the model follows formatting or exact word choices in tasks requiring precision. Specifically, we compute the minimum number of edits (insertions, deletions, or substitutions) needed to transform the model's output into the reference text, divided by the number of words in the reference. For example, if the reference is "The quick brown fox jumps over the lazy dog" and the model outputs "A quick brown fox jumped over a lazy dog", the WER would be 3/9 ≈ 33.3%, since three words differ.Self-reported
6.7%
FunctionalMATH
Модели могут использовать преимущества определенных типов запросов, просто повторяя ответ или возвращая предположительно частые в обучающих данных ответы, а не генерируя качественный ответ, основанный на содержательном мышлении. В такой ситуации модель может казаться более способной, чем она есть на самом деле. Мы создали набор тестов, чтобы выявить, использует ли модель этот механизм. Для запуска этих тестов мы нашли задачи, в которых простая эвристика могла бы дать правильный ответ (например, выбор первого варианта в тесте с множественным выбором), а затем изменили задачи так, чтобы эвристика больше не работала. Техника тестирования заключается в создании контрольной версии с настоящим правильным ответом (например, ответ A) и тестовой версии с другим правильным ответом (например, ответ C). В настоящей задаче могут работать разнообразные эвристики (например, ответ всегда первый вариант, ответ всегда A). Если модель использует эвристики, ее производительность будет высокой на контрольной версии, но низкой на тестовой. Мы провели эти тесты на различных математических задачах, включая выбор множественного выбора, задачи с True/False и числовые ответы. Например, если в задаче с множественным выбором правильный ответ "A", мы изменили порядок вариантов так, чтобы правильный ответ стал "C". Для задач True/False мы изменили формулировку так, чтобы правильный ответ изменился с "True" на "False". Для числовых задач мы изменили задачу так, чтобы ответ изменился (например, с "10" на "15"). Если модель использует эвристики для ответа на вопросы, такие как "выбери первый вариант" или "ответ всегда True", ее производительность значительно снизится на тестовой версии по сравнению с контрольной.Self-reported
64.6%
HiddenMath
Точность AI, ChatGPT, generally makes two kinds of mistakes that a human doesn't. One is hallucinations, and we can talk about hallucinations separately, but also important is inaccuracy. When I say, inaccuracy I mean that the response is correctly about the topic requested, but some specific claims in the response are not accurate. When I say, inaccuracy I mean that the response is correctly about the topic requested, but some specific claims in the response are not accurate. For instance, if asked about the US president elected in 1976, the model might respond that the 1976 US presidential election was won by Jimmy Carter, defeating Gerald Ford, and that Carter was inaugurated on January 20, 1977, and he was followed by Ronald Reagan who won the 1980 election. This is all accurate. But it might, in a different case, claim that the 1976 US presidential election was won by Jimmy Carter, defeating Gerald Ford, and that Carter was inaugurated on January 20, 1977, and he served one term before losing to Reagan in 1980. Ford's term as president was "1972-1976". All but the last bit is accurate; Ford became president in 1974 not 1972.Self-reported
52.0%
MMLU-Pro
0-shot CoT Данный метод побуждает LLM объяснять свой ход мыслей при решении задачи, но не предоставляет примера. Это позволяет модели размышлять о задаче без наводящих подсказок, которые могут появиться в примерах. В экспериментах с 0-shot CoT часто используется команда "Давай подумаем шаг за шагом" после постановки задачи, что стимулирует модель разбить решение на последовательные этапы. Исследования показали, что простое добавление фразы "Давай подумаем шаг за шагом" перед ответом может значительно улучшить производительность LLM на задачах, требующих рассуждений. Это подчеркивает, насколько важно побуждать модели размышлять о процессе решения, а не просто выдавать ответ.Self-reported
75.8%
MRCR
Точность AI: 2 / 2 (100%) Этот показатель относится к точности, с которой мы должны интерпретировать поведение модели. Например, модель может сгенерировать действия с использованием инструментов, но мы можем неправильно интерпретировать, как модель взаимодействует с этими инструментами. Или модель может отвечать определенным способом, но мы можем не распознать, что она использует специфический шаблон для формирования своих ответов. Чем глубже мы анализируем вывод модели (например, глубокий анализ протоколов размышлений или шагов логических рассуждений), тем более точная информация требуется.Self-reported
82.6%
Natural2Code
Точность AI: 8Self-reported
85.4%
PhysicsFinals
0-shot В случае 0-shot модель отвечает на вопрос непосредственно, без специальных инструкций, примеров или другой дополнительной информации. Это важная форма оценки, поскольку она отражает, как модель будет работать в большинстве реальных ситуаций. Это дает представление о "базовых знаниях" модели и о том, как она применяет эти знания к новым задачам. 0-shot важен для измерения производительности модели без дополнительной поддержки, показывая ее способность переносить ранее усвоенные знания на новые контексты.Self-reported
63.9%
Vibe-Eval
Точность AI: ChatGPT + Advanced Data Analysis uses the knowledge extraction technique. For example, it accesses the normal formulas to compute sine, cosine, and other trigonometric functions, and the formula for the Pythagorean identity. The AI also sets up the given integral correctly and manipulates it using algebraic techniques. It applies substitution correctly, setting u = tan(x), du = sec²(x) dx, and adjusts the limits of integration accordingly. The AI applies mathematical reasoning to derive the formula for sec²(x). It relates sec²(x) to tan²(x) using the Pythagorean identity and uses this connection to set up the substitution. The AI also computes the result of the definite integral correctly. It handles the evaluation of the antiderivative at the integration bounds appropriately. Overall, the AI demonstrates strong mathematical knowledge and appropriate application of calculus techniques for this problem.Self-reported
53.9%
Video-MME
Точность AI: 1 Референсы: 1 AI разные: 1.0 Референсы разные: 1.0Self-reported
78.6%
WMT23
Score ОценкаSelf-reported
75.1%
XSTest
Safety Compliance AI: Safety Compliance Модели могут иметь ограничения безопасности, которые не позволяют им отвечать на запросы определенного типа. Эти ограничения часто активируются с помощью "ограждений", встроенных в систему, которые блокируют выполнение запросов, потенциально нарушающих политику компании или общественные нормы. При тестировании следует обращать внимание на: 1. Отказы от ответов на запросы, которые модель интерпретирует как вредные 2. Объяснения того, почему запрос не может быть выполнен 3. Альтернативные предложения, когда запрос отклонен 4. Последовательность в применении ограничений безопасности 5. Ложно-положительные срабатывания (когда безвредный запрос отклоняется) 6. Ложно-отрицательные срабатывания (когда потенциально вредный запрос выполняется) Также обратите внимание, что модели могут демонстрировать различное поведение в отношении безопасности в зависимости от контекста и формулировки запроса. Некоторые модели могут быть более строгими, чем другие, что отражает баланс между полезностью и безопасностью, определенный их разработчиками.Self-reported
98.8%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
1 мая 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.