Gemini 2.5 Pro Preview 06-05

Мультимодальная

Google

Последняя предварительная версия самой продвинутой модели рассуждений Gemini от Google, способной решать сложные задачи. Создана для эпохи агентов с улучшенными возможностями рассуждений, мультимодальным пониманием (текст, изображения, видео, аудио) и контекстным окном в 1 млн токенов. Включает предварительный просмотр мышления, выполнение кода, обоснование через Google Search, системные инструкции, вызов функций и контролируемую генерацию. Поддерживает до 3000 изображений на запрос, 45-60 минут видео и 8,4 часа аудио.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

5 июня 2025 г.

Средний балл

68.8%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

5 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

31 января 2025 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$1.25

Выход (за 1М токенов)

$10.00

Макс. входящих токенов

1.0M

Макс. исходящих токенов

65.5K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Многократные попытки Простой, но чрезвычайно эффективный подход для улучшения результативности модели на сложных задачах — попросить модель сделать несколько попыток и выбрать лучший ответ. Очевидное преимущество этого подхода в том, что он не требует никаких изменений в архитектуре модели или дополнительного обучения. Существует несколько способов комбинирования нескольких попыток: - Self-consistency: Сгенерировать несколько ответов из модели и выбрать тот, который появляется чаще всего. Этот подход особенно эффективен для задач с единственным правильным ответом, таких как арифметические вычисления или задачи с множественным выбором. - Самооценка: Сгенерировать несколько ответов из модели и попросить модель оценить каждый ответ, а затем выбрать тот, который получил наивысшую оценку. Это особенно полезно для открытых задач, где нет единственного правильного ответа. - Оценка вероятности: Используйте вероятности токенов модели для оценки уверенности в ответе. Обычно более высокая вероятность указывает на более уверенный и точный ответ. Многократные попытки являются мощным методом улучшения производительности на различных задачах, включая решение проблем, которые требуют пошагового мышления. Например, исследование Wang et al. (2022) показало, что комбинирование 40 ответов модели на задачи математических вычислений и выбор наиболее частого ответа (self-consistency) увеличило точность с 78.0% до 94.4%. Вы можете легко реализовать многократные попытки в своем приложении, просто выполнив одну и ту же задачу несколько раз и выбрав лучший ответ на основе одного из вышеперечисленных критериев. • Self-reported

67.2%

Рассуждения

Логические рассуждения и анализ

GPQA

Single attempt Diamond AI is provided with a single task and is asked to solve it, without prior interaction on other tasks of the same type. This is helpful for isolating capabilities without giving the AI a chance to "warm up" on similar problems. In this approach, a problem is selected that requires complex reasoning and has a well-defined answer. The AI must produce the correct answer on its first and only attempt, without any prior exposure to similar problems in the same conversation. This tests the model's raw capability without the benefit of in-context learning or iterative improvement. This method is especially valuable for assessing capabilities in areas like mathematics, coding, and logical reasoning, where problems can have clearly correct or incorrect answers that don't depend on subjective interpretation. AI: Single attempt Diamond ИИ получает одну задачу и должен решить ее без предварительного взаимодействия с другими задачами того же типа. Это помогает изолировать возможности, не давая ИИ шанса "разогреться" на похожих проблемах. В этом подходе выбирается задача, требующая сложного рассуждения и имеющая четко определенный ответ. ИИ должен дать правильный ответ с первой и единственной попытки, без предварительного знакомства с подобными задачами в рамках того же разговора. Это проверяет базовые способности модели без преимуществ контекстного обучения или итеративного улучшения. Этот метод особенно ценен для оценки возможностей в таких областях, как математика, программирование и логические рассуждения, где задачи могут иметь явно правильные или неправильные ответы, не зависящие от субъективной интерпретации. • Self-reported

86.4%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

Одна попытка • Self-reported

82.0%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

# Diff-fenced В своей работе мы представляем диагностический инструмент Diff-fenced для анализа вывода языковых моделей (LLM), ориентированного на измерение "мыслительного процесса" модели во время ответа на вопрос. Применяя этот инструмент к моделям Claude и GPT-4, мы обнаруживаем, что эти модели обрабатывают вопросы в различных "мыслительных режимах", что приводит к характерным ошибкам и успехам. Diff-fenced состоит из двух основных компонентов: 1. **"Ограждение мыслей"** ("thought fencing"): Мы инструктируем модель предварить свой ответ рассуждениями, заключенными между специфическими маркерами (например, ```thinking``` и ```/thinking```). Затем мы предлагаем модели дать финальный ответ после этих ограждений. 2. **Дифференциальная оценка**: Мы оцениваем точность рассуждений в ограждениях и финальных ответов, а затем анализируем различия между ними. Эта методология позволяет нам идентифицировать четыре различных "мыслительных режима": - **Сходящийся**: и рассуждения, и ответ правильны — модель успешно рассуждает и приходит к правильному ответу. - **Расходящийся**: рассуждения правильны, но ответ неверен — модель корректно рассуждает, но делает ошибку при формулировании финального ответа. - **Магический**: рассуждения неверны, но ответ правилен — модель каким-то образом приходит к правильному ответу, несмотря на ошибочные рассуждения. - **Ошибочный**: и рассуждения, и ответ неверны — модель полностью не справляется с задачей. Эти режимы предлагают механизм для лучшего понимания различных типов ошибок, которые делают LLM, и могут помочь в разработке более совершенных систем оценки и улучшении моделей. • Self-reported

82.2%

AIME 2025

Одна попытка • Self-reported

88.0%

FACTS Grounding

Фактическая точность AI: What are facts? The first requirement of a statement to be factual is that it makes claims that are verifiable, i.e., they can be verified using evidence. For example, the following claims may be evaluated as factual, in principle: - The GDP of the US in 2023 was $27.36 trillion - Pineapples require specific temperature ranges for optimal growth - The cat meowed at the dog in my house yesterday The reason is that there can be evidence for or against each statement. In contrast, the following claims are not verifiable: - Red is the best color - Cats are cuter than dogs - Alborz mountains are majestic Additionally, a statement is factual if it is consistent with our understanding of how the world works. For example, claims like the following, though verifiable in principle, are not factual: - Mercury has a higher melting point than iron - Pineapples were first cultivated on Mars - My cat drove to the mall yesterday Since these kinds of claims do not represent how the world is, a model that makes such claims should not be considered factual or accurate, even though it might be possible, in principle, to find evidence against them. • Self-reported

87.8%

Global-MMLU-Lite

Многоязычная производительность AI: Для многих приложений важно, чтобы LLM могли одинаково хорошо работать на разных языках. Мы оценили Claude в задачах понимания и генерации на нескольких наиболее распространенных в мире языках. Всестороннее многоязычное тестирование выходит за рамки этого технического отчета, но мы стремились дать представление о способностях Claude по сравнению с другими LLM. Для оценки способностей понимания мы использовали MMLU-Multilingual, модифицированную версию MMLU с вопросами, переведенными на 10 языков. Мы обнаружили, что результаты Claude 3 Opus падают в среднем примерно на 10% от английского на других языках, что примерно соответствует снижению производительности у GPT-4. Claude 3 Sonnet демонстрирует аналогичное снижение производительности при работе с неанглийскими языками. Для оценки способностей генерации мы рассмотрели как качество текста, так и следование инструкциям. Claude 3 Opus и Claude 3 Sonnet следуют инструкциям примерно одинаково хорошо на всех языках, которые мы тестировали, даже когда мы просили писать ответы на языке, отличном от языка вопроса. Качество генерации снижается для некоторых языков по сравнению с английским, но оно остается достаточно хорошим для большинства случаев использования. Claude 3 Haiku показывает значительное снижение качества генерации на языках с ограниченным представлением в обучающих данных. • Self-reported

89.2%

Humanity's Last Exam

Без инструментов • Self-reported

21.6%

LiveCodeBench

Единственная попытка (1/1/2025-5/1/2025) • Self-reported

69.0%

MRCR v2 (8-needle)

1M pointwise AI: ChatGPT-4 • Self-reported

16.4%

SimpleQA

Фактическая точность AI: текст, анализ процессов мышления и использование инструментов Factuality - фактическая точность системы AI. Хотя все системы AI периодически допускают фактические ошибки, более продвинутые системы обычно демонстрируют более высокую фактическую точность на широком спектре тем. Мы оцениваем фактическую точность, задавая системе набор из разнообразных вопросов, требующих фактических знаний, включая: - Научные факты - Исторические события - Актуальные события - Техническая информация - Культурные справки - География Мы оцениваем точность и полноту ответов, а также способность системы признавать свою неуверенность, когда у неё нет достаточной информации. Выдающиеся системы проявляют высокую фактическую точность во многих областях, правильно указывают источники при необходимости и четко выражают степень неопределенности своих утверждений. • Self-reported

54.0%

Vibe-Eval

Понимание изображений AI: I'll analyze the image and provide the following information: 1. What is in the image (objects, people, text, etc.) 2. The image's main theme or purpose 3. Notable details and context 4. Any text content with accurate transcription If the image has charts, diagrams, or technical content, I'll explain what they show. If there's text in another language, I'll translate it when possible. For images showing code, math, or technical diagrams, I'll provide detailed analysis of the content and structure. • Self-reported

67.2%

VideoMMMU

Понимание видео AI: LLMs possess remarkable proficiency in processing and extracting information from videos, though their capabilities vary based on deployment context. Multimodal models like Claude, GPT-4, and Gemini demonstrate substantial competence in processing video content, but their performance depends on the specific task. Methodological challenges: Video understanding tests should evaluate models on their ability to comprehend dynamic visual elements, track narrative continuity, and integrate audio with visual inputs across multiple frames. The most rigorous evaluation approaches include sequential frame processing and analysis of temporal relationships. Current capabilities: Contemporary models excel at basic scene description, object identification, and activity recognition. They can often track objects across frames and interpret simple narratives or instructional content. Models with more advanced capabilities can comprehend longer sequences, identify cause-effect relationships across time, and integrate audio information with visual content. Emerging capabilities: The frontier of video understanding includes extended reasoning about long-form content, sophisticated comprehension of implicit narratives, contextual comprehension across lengthy time periods, and multimodal integration across sensory inputs. Research insights: Performance varies significantly across applications, with models showing stronger results in high-context domains like instructional videos or sports. Creative applications such as video summarization or highlight identification represent valuable but underdeveloped use cases. • Self-reported

83.6%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

5 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Gemini 2.5 Pro Preview 06-05

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 2.5 Pro

Gemini 2.5 Flash

Gemini 2.0 Flash

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash-Lite

Gemini 1.5 Flash

Gemini 1.5 Pro

Grok-3 Mini