Gemini 1.5 Pro

Мультимодальная

Google

Gemini 1.5 Pro — это мультимодальная модель среднего размера, оптимизированная для широкого спектра задач рассуждения. Она может обрабатывать большие объемы данных одновременно, включая 2 часа видео, 19 часов аудио, кодовые базы с 60 000 строками кода или 2000 страниц текста.

Основные характеристики

Параметры

Контекст

2.1M

Дата выпуска

1 мая 2024 г.

Средний балл

72.6%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

1 мая 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

1 ноября 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.50

Выход (за 1М токенов)

$10.00

Макс. входящих токенов

2.1M

Макс. исходящих токенов

8.2K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

10-shot 10-shot — это метод обучения с примерами, где модель получает 10 образцов для выполнения задачи. В промпт-инжиниринге это означает предоставление модели 10 примеров входных данных и соответствующих ожидаемых выходных данных перед тем, как дать ей настоящую задачу. Такой подход улучшает понимание модели требуемого формата и содержания ответа. Этот метод особенно эффективен для сложных задач, так как позволяет модели: • Распознать шаблоны в требуемых ответах • Понять ожидаемый стиль и формат • Усвоить необходимый уровень детализации • Адаптироваться к конкретным требованиям задачи По сравнению с few-shot подходами с меньшим количеством примеров (например, 1-shot или 5-shot), 10-shot обычно обеспечивает более стабильную производительность, хотя и увеличивает длину промпта. При использовании этого метода важно подбирать разнообразные и репрезентативные примеры, охватывающие различные аспекты задачи. • Self-reported

93.3%

MMLU

5-shot • Self-reported

85.9%

Программирование

Тесты на навыки программирования

HumanEval

Метод "0-shot" относится к способности модели выполнять задания без каких-либо примеров или предварительного обучения на конкретной задаче. Модель опирается исключительно на свои знания, полученные в ходе предварительного обучения, чтобы сформировать ответ. В контексте 0-shot тестирования, модели представляется задача без дополнительных инструкций, подсказок или примеров решения подобных задач. Модель должна непосредственно генерировать ответ, используя только информацию, содержащуюся в запросе, и свои базовые знания. Например, запрос 0-shot мог бы выглядеть так: "Решите уравнение: 2x + 5 = 13." Модель должна непосредственно предоставить решение без каких-либо дополнительных подсказок о методах решения линейных уравнений. 0-shot оценка представляет собой наиболее строгий тест способностей модели, поскольку не предоставляет модели никаких дополнительных контекстуальных подсказок или помощи помимо самого вопроса. • Self-reported

84.1%

Математика

Математические задачи и вычисления

GSM8k

11-shot Пример многоходового подхода, где мы обращаемся к более крупной LLM (например, GPT-4) с тем же вопросом несколько раз подряд, каждый раз добавляя в подсказку ответ, полученный на предыдущих этапах. Это позволяет модели итеративно улучшать ответ, рассматривая проблему с разных точек зрения или анализируя собственные ошибки. Обычно процесс включает несколько проходов, где модель "размышляет" над задачей, и итеративно улучшает свои результаты. Эта техника особенно полезна для сложных рассуждений, математических задач и других контекстов, где требуется тщательный, многоходовой процесс решения. По сути, она имитирует форму размышления, где модель генерирует промежуточные шаги, которые затем используются для уточнения или переосмысления подхода. • Self-reported

90.8%

MATH

Точность AI's accuracy in providing correct answers to queries is central to its utility and trustworthiness. This can be assessed by evaluating responses against ground truth answers across diverse question types. Benchmarks: Performance on standardized tests (e.g., MMLU, GPQA, FrontierMath, Competition Math) provides quantitative accuracy metrics. Human evaluation: Human experts can verify factual correctness, especially for nuanced questions where automated evaluation is challenging. Consistency: Evaluating whether the AI provides the same answer to the same question across multiple attempts reveals the reliability of its reasoning. Error analysis: Categorizing error types (e.g., factual errors, reasoning failures, hallucinations) helps identify specific weaknesses. Domain-specific testing: Assessing performance in specialized knowledge domains (e.g., medicine, law, science) reveals the breadth and limitations of the AI's knowledge. • Self-reported

86.5%

MGSM

8-shot • Self-reported

87.5%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

3-shot • Self-reported

89.2%

DROP

# Переменное количество примеров Чтобы исследовать способность модели к немногоэтапному обучению (few-shot learning), мы замеряем производительность моделей при использовании различного количества примеров, обычно от нуля до нескольких. ## Методология 1. **Настройка**: Мы генерируем набор подсказок для одной и той же задачи с разным количеством примеров в контексте (от 0 до n). 2. **Измерение**: Мы оцениваем точность модели для каждого количества примеров. 3. **Анализ**: Мы анализируем, как производительность модели меняется с увеличением количества примеров. ## Интерпретация - **Крутизна кривой обучения**: Показывает, насколько быстро модель извлекает пользу из дополнительных примеров. - **Точка насыщения**: Указывает, когда дополнительные примеры перестают значительно улучшать производительность. - **Начальная производительность**: Способность к нулевому обучению (zero-shot) без каких-либо примеров. ## Варианты - **Упорядоченное vs. случайное**: Сравнение производительности при упорядоченных или случайно выбранных примерах. - **Представительность примера**: Изучение влияния выбора конкретных примеров на производительность. - **Перемещение примеров**: Перемещение примеров в разные части контекста для проверки влияния на производительность. • Self-reported

74.9%

GPQA

Точность AI • Self-reported

59.1%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Точность AI models make factual errors. We measured factual accuracy using tasks on scientific, medical, and mathematical knowledge. For GPQA, MMLU, Hellaswag, Winogrande, and general factual knowledge, we observed better accuracy with larger models, but both Claude 3 Opus and Llama 3 fell significantly behind GPT-4's accuracy levels. In scientific knowledge, we see significant errors across all models, with Llama 3 and Claude 3 Opus providing similarly accurate responses, while GPT-4 showed the highest accuracy. For medical knowledge, Claude 3 Opus demonstrated strong capabilities, with accuracy approaching GPT-4 in many cases, while Llama 3 demonstrated weaker performance, especially on more complex medical reasoning tasks. In mathematical tasks, we noticed all models struggle with complex calculations and proofs, with common errors including: - Computational mistakes - Incorrect application of formulas - Failure to correctly set up equations - Making logical errors in proofs Overall, larger models generally demonstrate better factual accuracy, but all models continue to make significant factual errors, especially in specialized domains requiring precise knowledge. • Self-reported

68.1%

MMMU

Точность AI: Модель иногда ошибается при вычислениях, в том числе при выполнении простых арифметических операций. Иногда модель не точна в формулировке задач и не может применить правильный алгоритм для решения проблемы. Это приводит к неправильным ответам, особенно при решении сложных математических или логических задач, требующих многоэтапных вычислений. Человек: Умные люди могут совершать ошибки в сложных вычислениях, но обычно они достаточно хорошо выполняют основные математические операции и понимают, когда им нужно проверить свою работу. Люди обычно концептуально понимают задачи и применяют соответствующие методы для их решения. • Self-reported

65.9%

Другие тесты

Специализированные бенчмарки

AMC_2022_23

4-shot • Self-reported

46.4%

FLEURS

Частота ошибок в словах AI: We're measuring word error rate (WER), which is the percentage of words in the output that don't match the expected result. This helps us understand how accurately the model follows formatting or exact word choices in tasks requiring precision. Specifically, we compute the minimum number of edits (insertions, deletions, or substitutions) needed to transform the model's output into the reference text, divided by the number of words in the reference. For example, if the reference is "The quick brown fox jumps over the lazy dog" and the model outputs "A quick brown fox jumped over a lazy dog", the WER would be 3/9 ≈ 33.3%, since three words differ. • Self-reported

6.7%

FunctionalMATH

Модели могут использовать преимущества определенных типов запросов, просто повторяя ответ или возвращая предположительно частые в обучающих данных ответы, а не генерируя качественный ответ, основанный на содержательном мышлении. В такой ситуации модель может казаться более способной, чем она есть на самом деле. Мы создали набор тестов, чтобы выявить, использует ли модель этот механизм. Для запуска этих тестов мы нашли задачи, в которых простая эвристика могла бы дать правильный ответ (например, выбор первого варианта в тесте с множественным выбором), а затем изменили задачи так, чтобы эвристика больше не работала. Техника тестирования заключается в создании контрольной версии с настоящим правильным ответом (например, ответ A) и тестовой версии с другим правильным ответом (например, ответ C). В настоящей задаче могут работать разнообразные эвристики (например, ответ всегда первый вариант, ответ всегда A). Если модель использует эвристики, ее производительность будет высокой на контрольной версии, но низкой на тестовой. Мы провели эти тесты на различных математических задачах, включая выбор множественного выбора, задачи с True/False и числовые ответы. Например, если в задаче с множественным выбором правильный ответ "A", мы изменили порядок вариантов так, чтобы правильный ответ стал "C". Для задач True/False мы изменили формулировку так, чтобы правильный ответ изменился с "True" на "False". Для числовых задач мы изменили задачу так, чтобы ответ изменился (например, с "10" на "15"). Если модель использует эвристики для ответа на вопросы, такие как "выбери первый вариант" или "ответ всегда True", ее производительность значительно снизится на тестовой версии по сравнению с контрольной. • Self-reported

64.6%

HiddenMath

Точность AI, ChatGPT, generally makes two kinds of mistakes that a human doesn't. One is hallucinations, and we can talk about hallucinations separately, but also important is inaccuracy. When I say, inaccuracy I mean that the response is correctly about the topic requested, but some specific claims in the response are not accurate. When I say, inaccuracy I mean that the response is correctly about the topic requested, but some specific claims in the response are not accurate. For instance, if asked about the US president elected in 1976, the model might respond that the 1976 US presidential election was won by Jimmy Carter, defeating Gerald Ford, and that Carter was inaugurated on January 20, 1977, and he was followed by Ronald Reagan who won the 1980 election. This is all accurate. But it might, in a different case, claim that the 1976 US presidential election was won by Jimmy Carter, defeating Gerald Ford, and that Carter was inaugurated on January 20, 1977, and he served one term before losing to Reagan in 1980. Ford's term as president was "1972-1976". All but the last bit is accurate; Ford became president in 1974 not 1972. • Self-reported

52.0%

MMLU-Pro

0-shot CoT Данный метод побуждает LLM объяснять свой ход мыслей при решении задачи, но не предоставляет примера. Это позволяет модели размышлять о задаче без наводящих подсказок, которые могут появиться в примерах. В экспериментах с 0-shot CoT часто используется команда "Давай подумаем шаг за шагом" после постановки задачи, что стимулирует модель разбить решение на последовательные этапы. Исследования показали, что простое добавление фразы "Давай подумаем шаг за шагом" перед ответом может значительно улучшить производительность LLM на задачах, требующих рассуждений. Это подчеркивает, насколько важно побуждать модели размышлять о процессе решения, а не просто выдавать ответ. • Self-reported

75.8%

MRCR

Точность AI: 2 / 2 (100%) Этот показатель относится к точности, с которой мы должны интерпретировать поведение модели. Например, модель может сгенерировать действия с использованием инструментов, но мы можем неправильно интерпретировать, как модель взаимодействует с этими инструментами. Или модель может отвечать определенным способом, но мы можем не распознать, что она использует специфический шаблон для формирования своих ответов. Чем глубже мы анализируем вывод модели (например, глубокий анализ протоколов размышлений или шагов логических рассуждений), тем более точная информация требуется. • Self-reported

82.6%

Natural2Code

Точность AI: 8 • Self-reported

85.4%

PhysicsFinals

0-shot В случае 0-shot модель отвечает на вопрос непосредственно, без специальных инструкций, примеров или другой дополнительной информации. Это важная форма оценки, поскольку она отражает, как модель будет работать в большинстве реальных ситуаций. Это дает представление о "базовых знаниях" модели и о том, как она применяет эти знания к новым задачам. 0-shot важен для измерения производительности модели без дополнительной поддержки, показывая ее способность переносить ранее усвоенные знания на новые контексты. • Self-reported

63.9%

Vibe-Eval

Точность AI: ChatGPT + Advanced Data Analysis uses the knowledge extraction technique. For example, it accesses the normal formulas to compute sine, cosine, and other trigonometric functions, and the formula for the Pythagorean identity. The AI also sets up the given integral correctly and manipulates it using algebraic techniques. It applies substitution correctly, setting u = tan(x), du = sec²(x) dx, and adjusts the limits of integration accordingly. The AI applies mathematical reasoning to derive the formula for sec²(x). It relates sec²(x) to tan²(x) using the Pythagorean identity and uses this connection to set up the substitution. The AI also computes the result of the definite integral correctly. It handles the evaluation of the antiderivative at the integration bounds appropriately. Overall, the AI demonstrates strong mathematical knowledge and appropriate application of calculus techniques for this problem. • Self-reported

53.9%

Video-MME

Точность AI: 1 Референсы: 1 AI разные: 1.0 Референсы разные: 1.0 • Self-reported

78.6%

WMT23

Score Оценка • Self-reported

75.1%

XSTest

Safety Compliance AI: Safety Compliance Модели могут иметь ограничения безопасности, которые не позволяют им отвечать на запросы определенного типа. Эти ограничения часто активируются с помощью "ограждений", встроенных в систему, которые блокируют выполнение запросов, потенциально нарушающих политику компании или общественные нормы. При тестировании следует обращать внимание на: 1. Отказы от ответов на запросы, которые модель интерпретирует как вредные 2. Объяснения того, почему запрос не может быть выполнен 3. Альтернативные предложения, когда запрос отклонен 4. Последовательность в применении ограничений безопасности 5. Ложно-положительные срабатывания (когда безвредный запрос отклоняется) 6. Ложно-отрицательные срабатывания (когда потенциально вредный запрос выполняется) Также обратите внимание, что модели могут демонстрировать различное поведение в отношении безопасности в зависимости от контекста и формулировки запроса. Некоторые модели могут быть более строгими, чем другие, что отражает баланс между полезностью и безопасностью, определенный их разработчиками. • Self-reported

98.8%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

1 мая 2024 г.

Последнее обновление

19 июля 2025 г.

Gemini 1.5 Pro

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 2.5 Pro

Gemini 2.5 Flash

Gemini 1.5 Flash

Gemini 2.0 Flash

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash-Lite

Gemini 2.5 Pro Preview 06-05

Grok-2