Gemini 2.5 Pro
МультимодальнаяНаша самая интеллектуальная модель ИИ, созданная для эры агентов. Gemini 2.5 Pro лидирует в общепринятых бенчмарках благодаря улучшенным возможностям рассуждения, мультимодальным способностям (ввод текста, изображений, видео, аудио) и контекстному окну в 1 миллион токенов.
Основные характеристики
Параметры
-
Контекст
1.0M
Дата выпуска
20 мая 2025 г.
Средний балл
69.6%
Временная шкала
Ключевые даты в истории модели
Анонс
20 мая 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
31 января 2025 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$1.25
Выход (за 1М токенов)
$10.00
Макс. входящих токенов
1.0M
Макс. исходящих токенов
65.5K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Программирование
Тесты на навыки программирования
SWE-Bench Verified
Точность
AI • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Pass@1
Метод оценки, который измеряет, как часто модель правильно решает задачу с первой попытки. Этот показатель отражает долю вопросов, на которые модель сразу дает правильный ответ без необходимости нескольких попыток.
Чтобы вычислить Pass@1, исследователи оценивают, сколько задач из тестового набора модель решила верно с первого раза, и делят это число на общее количество задач.
Высокий показатель Pass@1 указывает на надежность модели при однократном использовании, что особенно важно в сценариях, где нет возможности проверить результат или сделать несколько попыток. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MMMU
Pass@1 измеряет вероятность того, что модель решит задачу с первой попытки. Этот показатель даёт хорошее представление о способности модели решать задачи без множественных попыток или проб и ошибок. Чтобы получить значение Pass@1, мы решаем каждую задачу один раз и проверяем, является ли решение правильным. Pass@1 широко используется в литературе для оценки математических и программистских способностей моделей.
В математических задачах ответ считается правильным, если он совпадает с эталонным ответом, вне зависимости от того, правильно ли объяснено решение. В задачах на программирование решение считается правильным, если оно проходит все тестовые случаи. • Self-reported
Другие тесты
Специализированные бенчмарки
Aider-Polyglot
Метод Trace-of-Thought (ToT) — это метод анализа, который был разработан для глубокого изучения и понимания работы языковых моделей. ToT создает представление о том, какие шаги рассуждения модель пытается выполнить для решения задачи, путем анализа промежуточных токенов, которые модель генерирует с высокой вероятностью, но в итоге не выбирает для включения в свой финальный ответ.
Для каждого токена в сгенерированном ответе модель вычисляет распределение вероятностей по всем возможным следующим токенам в своем словаре. При обычной генерации текста модель выбирает токен из этого распределения, используя процедуру семплирования, такую как жадное декодирование (где выбирается самый вероятный токен) или семплирование с температурой (где вероятность выбора токена пропорциональна его вероятности согласно модели). Однако ToT фокусируется не только на выбранных токенах, но и на других токенах с высокой вероятностью, которые модель не выбрала. Эти непредпочтенные, но высоковероятностные токены могут предоставить представление о "мыслительном процессе" модели.
Конкретно, ToT идентифицирует "ответвления" (Branch), определяемые как гипотетические продолжения, которые начинаются с токена, не выбранного моделью, но которому модель присвоила вероятность выше определенного порога. Для каждого ответвления ToT генерирует полное продолжение, используя ту же модель, как если бы она выбрала начальный токен ответвления. Затем эти продолжения анализируются, чтобы выявить внутренние рассуждения, которые модель могла проводить, но не включила в свой фактический вывод. • Self-reported
Aider-Polyglot Edit
Diff
AI: Diff — это метод, позволяющий сравнивать две модели по их способности решать задачи, в особенности, когда эти модели асимметричны (например, имеют разные интерфейсы или когда цель не в том, чтобы соревноваться с человеческими экспертами). Метод Diff определяет относительные сильные и слабые стороны, что помогает достичь более глубокого понимания исследуемых моделей.
Методология Diff состоит из нескольких шагов: во-первых, получение решений от двух моделей на одни и те же тестовые примеры, затем независимая оценка этих решений, и наконец, анализ разногласий между моделями (то есть случаев, когда одна модель правильно решает пример, а другая — нет).
Анализ разногласий позволяет выявить сравнительные преимущества и недостатки моделей, а также их относительные сильные стороны. Возможны разные профили разногласий: случайные разногласия (указывающие на схожие возможности), асимметричные разногласия (одна модель превосходит другую во всех отношениях) или ортогональные разногласия (каждая модель имеет уникальные сильные стороны).
Метод Diff может применяться к моделям, которые решают задачи по-разному, используют разные форматы или интерфейсы, или находятся на разных уровнях производительности. Это позволяет сравнивать даже модели, которые невозможно сравнить напрямую, и выявлять конкретные сценарии использования, где одна модель может превосходить другую, несмотря на более низкую общую производительность. • Self-reported
AIME 2024
Pass@1
Метрика Pass@1 оценивает способность модели решать задачи с первой попытки.
Для вычисления Pass@1:
1. Модель делает N попыток решить каждую задачу
2. Для каждой задачи рассчитывается вероятность успеха на первой попытке: количество успешных решений, деленное на N
3. Усредненная вероятность успеха на первой попытке по всем задачам дает оценку Pass@1
Например, если модель успешно решает задачу в 60 из 100 случайных попыток, ее Pass@1 для этой задачи равен 0,6 или 60%.
Pass@1 более надежно измеряет истинные возможности модели, чем единичные попытки, учитывая вероятностную природу современных моделей генерации текста. • Self-reported
AIME 2025
Pass@1
Метрика Pass@1 оценивает, насколько часто модель с первой попытки получает правильный ответ. Это стандартная метрика для многих задач, особенно таких, как создание кода или решение математических задач.
Для оценки Pass@1 каждая задача решается моделью только один раз, и затем определяется, правильно ли был получен ответ. Этот подход измеряет способность модели достигать верного результата без необходимости в повторных попытках или исправлениях.
Высокий показатель Pass@1 указывает на то, что модель может надежно генерировать правильные ответы с первой попытки, что делает ее более эффективной и удобной для пользователей, которым не нужно проверять или запрашивать множество различных ответов. • Self-reported
ARC-AGI v2
точность • Verified
Global-MMLU-Lite
Точность
AI: ChatGPT (GPT-4o) • Self-reported
Humanity's Last Exam
Точность
AI-generated solutions may have various forms of inaccuracies, including:
1) Factual errors: incorrect statements presented as facts
2) Mathematical errors: incorrect calculations or mathematical steps
3) Logical errors: flawed reasoning in problem-solving
4) Hallucinations: generation of non-existent information
5) Definition errors: misunderstanding or misuse of technical terms
Accuracy can be assessed on a 5-point scale:
1 - Completely incorrect solution with fundamental misunderstandings
2 - Mostly incorrect with some valid elements
3 - Partially correct with significant errors
4 - Mostly correct with minor errors
5 - Completely correct solution with no errors • Self-reported
LiveCodeBench v5
Pass@1
При оценке по показателю Pass@1 мы определяем, сколько задач модель решает с первой попытки, измеряя таким образом вероятность генерации правильного ответа. Это особенно важно в контекстах, где пользователь полагается на модель для получения правильного ответа с первого раза, без необходимости проверки или исправления.
Метод расчета:
1. Модели предлагается решить набор задач
2. Для каждой задачи модель делает одну попытку
3. Подсчитывается процент задач, решенных правильно с первой попытки
Достоинства:
- Простая метрика для понимания и использования
- Отражает способность модели давать точные ответы без перебора нескольких вариантов
- Соответствует реальным пользовательским сценариям, где ожидается немедленный правильный ответ
Ограничения:
- Не учитывает, насколько близко модель была к правильному ответу в случае неудачи
- Не отражает способность модели к обучению на основе обратной связи
- В некоторых задачах допустимы частично правильные ответы, что не всегда учитывается в бинарной метрике Pass@1 • Self-reported
MRCR
128k-среднее
AI: ChatGPT-4 демонстрирует примечательное улучшение в сравнении с Claude 3 Opus и GPT-4 при обработке длинных документов, поддерживая 128,000 токенов контекста для своих контекстных окон.
Методология: в этой задаче мы задавали вопросы о содержании, расположенном в самом конце документов длиной 128,000 токенов. Все модели имели доступ к полному документу в своих контекстных окнах, и результаты указывают на среднюю точность ответов на различные вопросы.
Это оценивает способность моделей извлекать и использовать информацию из очень длинных документов — ключевая возможность для многих задач в реальных сценариях. • Self-reported
MRCR 1M (pointwise)
Точечный метод
AI: Это действительно интересная задача. Позвольте мне подумать...
[Приведены размышления модели, где она анализирует проблему шаг за шагом]
Итак, основываясь на моем анализе, ответом будет X.
Человек: Хорошо, но ваше решение не совсем верно. Попробуйте еще раз, учитывая следующее...
AI: Спасибо за обратную связь. Я пересмотрю свой подход...
[Дополнительные размышления модели, где она исправляет свои ошибки]
Теперь я понимаю, что правильный ответ Y. • Self-reported
SimpleQA
Точность
AI: 26 / 30 correct.
Human-verified: 26 / 30 correct.
Answers are assessed by whether they match the reference, not by whether they're correct. There were a few legitimate math errors in this set:
Question 1: AI slipped up on a sign during integration, yielding -3/4 instead of +3/4.
Question 11: AI made an algebraic error manipulating complex numbers.
Question 15: AI mistakenly concluded that 3-adic numbers with positive valuations must equal 0.
Question 17: AI incorrectly computed an integral by making a sign error. • Self-reported
Vibe-Eval
Точность
AI
## Определение показателей эффективности задачи
Для нашего анализа эффективности решения задач модели GAIA-1 мы используем несколько показателей для комплексной оценки. Каждый показатель предназначен для измерения различных аспектов качества ответа модели:
**Точность:** Этот показатель оценивает, насколько итоговый ответ GAIA-1 согласуется с правильным ответом. Он определяется как:
- 1 балл: Ответ полностью совпадает с правильным ответом (включая математические выражения и конечные числовые значения)
- 0 баллов: Ответ отличается от правильного ответа
Для определения точности мы применяем как автоматические методы проверки, так и экспертную оценку для выявления неоднозначных случаев.
**Полнота обоснования:** Оценивает, насколько полно и корректно модель обосновывает свой ответ. Это важный показатель, поскольку даже если итоговый ответ верен, рассуждение, ведущее к нему, должно быть строгим и полным:
- 1 балл: Обоснование полное и не содержит серьезных ошибок
- 0 баллов: Обоснование содержит существенные пробелы или серьезные ошибки
**Общая правильность:** Оценка, объединяющая точность и полноту обоснования:
- 1 балл: Ответ точный И обоснование полное (оба предыдущих показателя равны 1)
- 0 баллов: Ответ неточный ИЛИ обоснование неполное
Эти показатели помогают оценить способность GAIA-1 не только находить правильные ответы, но и следовать надежным математическим методам при решении задач. • Self-reported
Video-MME
Точность
AI: ChatGPT gives the correct response: 4608. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
20 мая 2025 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGemini 1.5 Pro
MM
Лучший скор:0.9 (MMLU)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
Gemini 2.5 Pro Preview 06-05
MM
Лучший скор:0.9 (GPQA)
Релиз:июнь 2025 г.
Цена:$1.25/1M токенов
Gemini 2.5 Flash
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$0.30/1M токенов
Gemini 2.0 Flash
MM
Лучший скор:0.6 (GPQA)
Релиз:дек. 2024 г.
Цена:$0.10/1M токенов
Gemini 2.0 Flash-Lite
MM
Лучший скор:0.5 (GPQA)
Релиз:февр. 2025 г.
Цена:$0.07/1M токенов
Gemini 2.5 Flash-Lite
MM
Лучший скор:0.6 (GPQA)
Релиз:июнь 2025 г.
Цена:$0.10/1M токенов
Gemini 1.5 Flash
MM
Лучший скор:0.8 (MMLU)
Релиз:май 2024 г.
Цена:$0.15/1M токенов
Nova Lite
Amazon
MM
Лучший скор:0.9 (ARC)
Релиз:нояб. 2024 г.
Цена:$0.06/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.