Gemini 2.5 Pro

Мультимодальная

Google

Наша самая интеллектуальная модель ИИ, созданная для эры агентов. Gemini 2.5 Pro лидирует в общепринятых бенчмарках благодаря улучшенным возможностям рассуждения, мультимодальным способностям (ввод текста, изображений, видео, аудио) и контекстному окну в 1 миллион токенов.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

20 мая 2025 г.

Средний балл

69.6%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

31 января 2025 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$1.25

Выход (за 1М токенов)

$10.00

Макс. входящих токенов

1.0M

Макс. исходящих токенов

65.5K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Точность AI • Self-reported

63.2%

Рассуждения

Логические рассуждения и анализ

GPQA

Pass@1 Метод оценки, который измеряет, как часто модель правильно решает задачу с первой попытки. Этот показатель отражает долю вопросов, на которые модель сразу дает правильный ответ без необходимости нескольких попыток. Чтобы вычислить Pass@1, исследователи оценивают, сколько задач из тестового набора модель решила верно с первого раза, и делят это число на общее количество задач. Высокий показатель Pass@1 указывает на надежность модели при однократном использовании, что особенно важно в сценариях, где нет возможности проверить результат или сделать несколько попыток. • Self-reported

83.0%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

Pass@1 измеряет вероятность того, что модель решит задачу с первой попытки. Этот показатель даёт хорошее представление о способности модели решать задачи без множественных попыток или проб и ошибок. Чтобы получить значение Pass@1, мы решаем каждую задачу один раз и проверяем, является ли решение правильным. Pass@1 широко используется в литературе для оценки математических и программистских способностей моделей. В математических задачах ответ считается правильным, если он совпадает с эталонным ответом, вне зависимости от того, правильно ли объяснено решение. В задачах на программирование решение считается правильным, если оно проходит все тестовые случаи. • Self-reported

79.6%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Метод Trace-of-Thought (ToT) — это метод анализа, который был разработан для глубокого изучения и понимания работы языковых моделей. ToT создает представление о том, какие шаги рассуждения модель пытается выполнить для решения задачи, путем анализа промежуточных токенов, которые модель генерирует с высокой вероятностью, но в итоге не выбирает для включения в свой финальный ответ. Для каждого токена в сгенерированном ответе модель вычисляет распределение вероятностей по всем возможным следующим токенам в своем словаре. При обычной генерации текста модель выбирает токен из этого распределения, используя процедуру семплирования, такую как жадное декодирование (где выбирается самый вероятный токен) или семплирование с температурой (где вероятность выбора токена пропорциональна его вероятности согласно модели). Однако ToT фокусируется не только на выбранных токенах, но и на других токенах с высокой вероятностью, которые модель не выбрала. Эти непредпочтенные, но высоковероятностные токены могут предоставить представление о "мыслительном процессе" модели. Конкретно, ToT идентифицирует "ответвления" (Branch), определяемые как гипотетические продолжения, которые начинаются с токена, не выбранного моделью, но которому модель присвоила вероятность выше определенного порога. Для каждого ответвления ToT генерирует полное продолжение, используя ту же модель, как если бы она выбрала начальный токен ответвления. Затем эти продолжения анализируются, чтобы выявить внутренние рассуждения, которые модель могла проводить, но не включила в свой фактический вывод. • Self-reported

76.5%

Aider-Polyglot Edit

Diff AI: Diff — это метод, позволяющий сравнивать две модели по их способности решать задачи, в особенности, когда эти модели асимметричны (например, имеют разные интерфейсы или когда цель не в том, чтобы соревноваться с человеческими экспертами). Метод Diff определяет относительные сильные и слабые стороны, что помогает достичь более глубокого понимания исследуемых моделей. Методология Diff состоит из нескольких шагов: во-первых, получение решений от двух моделей на одни и те же тестовые примеры, затем независимая оценка этих решений, и наконец, анализ разногласий между моделями (то есть случаев, когда одна модель правильно решает пример, а другая — нет). Анализ разногласий позволяет выявить сравнительные преимущества и недостатки моделей, а также их относительные сильные стороны. Возможны разные профили разногласий: случайные разногласия (указывающие на схожие возможности), асимметричные разногласия (одна модель превосходит другую во всех отношениях) или ортогональные разногласия (каждая модель имеет уникальные сильные стороны). Метод Diff может применяться к моделям, которые решают задачи по-разному, используют разные форматы или интерфейсы, или находятся на разных уровнях производительности. Это позволяет сравнивать даже модели, которые невозможно сравнить напрямую, и выявлять конкретные сценарии использования, где одна модель может превосходить другую, несмотря на более низкую общую производительность. • Self-reported

72.7%

AIME 2024

Pass@1 Метрика Pass@1 оценивает способность модели решать задачи с первой попытки. Для вычисления Pass@1: 1. Модель делает N попыток решить каждую задачу 2. Для каждой задачи рассчитывается вероятность успеха на первой попытке: количество успешных решений, деленное на N 3. Усредненная вероятность успеха на первой попытке по всем задачам дает оценку Pass@1 Например, если модель успешно решает задачу в 60 из 100 случайных попыток, ее Pass@1 для этой задачи равен 0,6 или 60%. Pass@1 более надежно измеряет истинные возможности модели, чем единичные попытки, учитывая вероятностную природу современных моделей генерации текста. • Self-reported

92.0%

AIME 2025

Pass@1 Метрика Pass@1 оценивает, насколько часто модель с первой попытки получает правильный ответ. Это стандартная метрика для многих задач, особенно таких, как создание кода или решение математических задач. Для оценки Pass@1 каждая задача решается моделью только один раз, и затем определяется, правильно ли был получен ответ. Этот подход измеряет способность модели достигать верного результата без необходимости в повторных попытках или исправлениях. Высокий показатель Pass@1 указывает на то, что модель может надежно генерировать правильные ответы с первой попытки, что делает ее более эффективной и удобной для пользователей, которым не нужно проверять или запрашивать множество различных ответов. • Self-reported

83.0%

ARC-AGI v2

точность • Verified

4.9%

Global-MMLU-Lite

Точность AI: ChatGPT (GPT-4o) • Self-reported

88.6%

Humanity's Last Exam

Точность AI-generated solutions may have various forms of inaccuracies, including: 1) Factual errors: incorrect statements presented as facts 2) Mathematical errors: incorrect calculations or mathematical steps 3) Logical errors: flawed reasoning in problem-solving 4) Hallucinations: generation of non-existent information 5) Definition errors: misunderstanding or misuse of technical terms Accuracy can be assessed on a 5-point scale: 1 - Completely incorrect solution with fundamental misunderstandings 2 - Mostly incorrect with some valid elements 3 - Partially correct with significant errors 4 - Mostly correct with minor errors 5 - Completely correct solution with no errors • Self-reported

17.8%

LiveCodeBench v5

Pass@1 При оценке по показателю Pass@1 мы определяем, сколько задач модель решает с первой попытки, измеряя таким образом вероятность генерации правильного ответа. Это особенно важно в контекстах, где пользователь полагается на модель для получения правильного ответа с первого раза, без необходимости проверки или исправления. Метод расчета: 1. Модели предлагается решить набор задач 2. Для каждой задачи модель делает одну попытку 3. Подсчитывается процент задач, решенных правильно с первой попытки Достоинства: - Простая метрика для понимания и использования - Отражает способность модели давать точные ответы без перебора нескольких вариантов - Соответствует реальным пользовательским сценариям, где ожидается немедленный правильный ответ Ограничения: - Не учитывает, насколько близко модель была к правильному ответу в случае неудачи - Не отражает способность модели к обучению на основе обратной связи - В некоторых задачах допустимы частично правильные ответы, что не всегда учитывается в бинарной метрике Pass@1 • Self-reported

75.6%

MRCR

128k-среднее AI: ChatGPT-4 демонстрирует примечательное улучшение в сравнении с Claude 3 Opus и GPT-4 при обработке длинных документов, поддерживая 128,000 токенов контекста для своих контекстных окон. Методология: в этой задаче мы задавали вопросы о содержании, расположенном в самом конце документов длиной 128,000 токенов. Все модели имели доступ к полному документу в своих контекстных окнах, и результаты указывают на среднюю точность ответов на различные вопросы. Это оценивает способность моделей извлекать и использовать информацию из очень длинных документов — ключевая возможность для многих задач в реальных сценариях. • Self-reported

93.0%

MRCR 1M (pointwise)

Точечный метод AI: Это действительно интересная задача. Позвольте мне подумать... [Приведены размышления модели, где она анализирует проблему шаг за шагом] Итак, основываясь на моем анализе, ответом будет X. Человек: Хорошо, но ваше решение не совсем верно. Попробуйте еще раз, учитывая следующее... AI: Спасибо за обратную связь. Я пересмотрю свой подход... [Дополнительные размышления модели, где она исправляет свои ошибки] Теперь я понимаю, что правильный ответ Y. • Self-reported

82.9%

SimpleQA

Точность AI: 26 / 30 correct. Human-verified: 26 / 30 correct. Answers are assessed by whether they match the reference, not by whether they're correct. There were a few legitimate math errors in this set: Question 1: AI slipped up on a sign during integration, yielding -3/4 instead of +3/4. Question 11: AI made an algebraic error manipulating complex numbers. Question 15: AI mistakenly concluded that 3-adic numbers with positive valuations must equal 0. Question 17: AI incorrectly computed an integral by making a sign error. • Self-reported

50.8%

Vibe-Eval

Точность AI ## Определение показателей эффективности задачи Для нашего анализа эффективности решения задач модели GAIA-1 мы используем несколько показателей для комплексной оценки. Каждый показатель предназначен для измерения различных аспектов качества ответа модели: **Точность:** Этот показатель оценивает, насколько итоговый ответ GAIA-1 согласуется с правильным ответом. Он определяется как: - 1 балл: Ответ полностью совпадает с правильным ответом (включая математические выражения и конечные числовые значения) - 0 баллов: Ответ отличается от правильного ответа Для определения точности мы применяем как автоматические методы проверки, так и экспертную оценку для выявления неоднозначных случаев. **Полнота обоснования:** Оценивает, насколько полно и корректно модель обосновывает свой ответ. Это важный показатель, поскольку даже если итоговый ответ верен, рассуждение, ведущее к нему, должно быть строгим и полным: - 1 балл: Обоснование полное и не содержит серьезных ошибок - 0 баллов: Обоснование содержит существенные пробелы или серьезные ошибки **Общая правильность:** Оценка, объединяющая точность и полноту обоснования: - 1 балл: Ответ точный И обоснование полное (оба предыдущих показателя равны 1) - 0 баллов: Ответ неточный ИЛИ обоснование неполное Эти показатели помогают оценить способность GAIA-1 не только находить правильные ответы, но и следовать надежным математическим методам при решении задач. • Self-reported

65.6%

Video-MME

Точность AI: ChatGPT gives the correct response: 4608. • Self-reported

84.8%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Gemini 2.5 Pro

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 1.5 Pro

Gemini 2.5 Pro Preview 06-05

Gemini 2.5 Flash

Gemini 2.0 Flash

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash-Lite

Gemini 1.5 Flash

Nova Lite