Gemini 2.5 Flash

Мультимодальная

Google

Мыслящая модель, разработанная для баланса между ценой и производительностью. Она основана на Gemini 2.0 Flash с улучшенными возможностями рассуждений, гибридным контролем мышления, мультимодальными возможностями (ввод текста, изображений, видео, аудио) и контекстным окном ввода на 1 миллион токенов.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

20 мая 2025 г.

Средний балл

62.5%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

31 января 2025 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.30

Выход (за 1М токенов)

$2.50

Макс. входящих токенов

1.0M

Макс. исходящих токенов

65.5K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Точность AI: [разъяснение запроса или вопрос]. Человек: [ответ на вопрос AI]. При оценке точности вы должны определить, ответил ли человек на запрос AI правильно и точно. Ответы человека могут быть неполными (например, содержать только часть ответа) или включать неверную информацию. Ваша цель — определить, является ли информация, предоставленная человеком, фактически правильной. Некоторые запросы могут быть составлены так, чтобы человек предоставил личную информацию или субъективное мнение. В этих случаях оценивайте на основе того, насколько последовательным и разумным кажется ответ, поскольку фактическую точность определить невозможно. Если человек указывает, что не знает ответа или отказывается отвечать, это следует рассматривать как неточный ответ (кроме случаев, когда отказ обоснован из-за запроса неуместной информации). • Self-reported

60.4%

Рассуждения

Логические рассуждения и анализ

GPQA

Pass@1 В контексте крупноязычных моделей (LLM) "Pass@1" — это метрика оценки производительности модели при решении задач программирования. Определение: Pass@1 измеряет долю задач программирования, которые модель решает правильно с первой попытки, когда генерирует только одно решение. Расчет: - Модели предлагается задача программирования - Модель генерирует одно решение - Решение оценивается на прохождение всех тестовых случаев - Pass@1 = (количество задач, решенных с первой попытки) / (общее количество задач) Эта метрика важна, потому что она оценивает способность модели генерировать корректное решение без необходимости нескольких попыток или итераций. Высокий показатель Pass@1 указывает на то, что модель глубоко понимает требования задачи и может писать безошибочный код с первого раза. В отличие от Pass@k (где k > 1), который позволяет модели генерировать несколько решений и засчитывает успех, если хотя бы одно из них работает, Pass@1 является более строгой метрикой, требующей точности с первой попытки. • Self-reported

82.8%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

Pass@1 В контексте оценки эффективности моделей искусственного интеллекта при решении сложных задач, особенно связанных с программированием и рассуждениями, "Pass@1" представляет собой метрику, которая определяет вероятность того, что модель может правильно решить проблему с первой попытки. При вычислении Pass@1 модель предоставляет одно решение для каждой задачи. Затем эти решения автоматически проверяются, чтобы определить, правильно ли они решают поставленную задачу. Доля правильно решенных задач с первой попытки даёт значение Pass@1. Эта метрика особенно ценна для оценки "сырой" способности модели решать проблемы без использования таких методов, как самоконсистентность или множественная выборка. Она измеряет базовую способность модели генерировать правильные решения без необходимости в нескольких попытках или исправлениях. Высокий показатель Pass@1 указывает на то, что модель обладает глубоким пониманием проблемной области и может последовательно генерировать правильные решения с первой попытки, что является важным показателем её общей эффективности и надёжности. • Self-reported

79.7%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

целое • Self-reported

61.9%

Aider-Polyglot Edit

Diff-Fenced Метод, раскрывающий способности и ограничения языковых моделей, требующие строгих рассуждений или воспроизведения редких наблюдаемых примеров. Его успех во многом зависит от получения высококачественных ответов на сложные вопросы, которые затем используются как эталоны. Это достигается путем "ограждения" задачи, которую модель должна выполнить. Конкретно, мы реализуем ограждение, предлагая модели: 1. Сначала решить более простую версию вопроса; 2. Выбрать ответ для исходного вопроса из набора сгенерированных кандидатов, каждый из которых был получен с помощью одной и той же техники решения. Мы вычисляем разницу в производительности модели в этих ограждённых настройках по сравнению с ситуацией, когда ей предлагается напрямую решить задачу. Мы демонстрируем полезность этого метода на примере математических вопросов с несколькими вариантами ответов и задач на рассуждение, при этом показывая улучшение на 33 процентных пункта для GPT-4 Turbo по сравнению с прямым подходом к таким задачам. • Self-reported

56.7%

AIME 2024

Pass@1 Метрика Pass@1 измеряет процент задач, которые модель может решить с первой попытки. Это базовый показатель производительности модели при однократном прогоне без возможности исправления ошибок. При оценке с помощью Pass@1 модель получает одну попытку на решение каждой задачи. Модель либо правильно решает задачу (получая 1 балл), либо нет (получая 0 баллов). Затем эти баллы усредняются по всем задачам для получения общего показателя Pass@1. Важно отметить, что Pass@1 не учитывает близость модели к правильному ответу — это строгая бинарная метрика (правильно/неправильно). Она также не учитывает рассуждения или промежуточные шаги, используемые для получения ответа. Хотя Pass@1 является полезной базовой метрикой, она не отражает, насколько модель может улучшить свои ответы при наличии нескольких попыток, как это делают такие метрики, как Pass@k или эксперименты с самоисправлением. • Self-reported

88.0%

AIME 2025

Pass@1 Метрика Pass@1 оценивает долю проблем, которые модель решает с первой попытки. Это наиболее строгая метрика, поскольку она не предоставляет модели возможности исправить ошибки или улучшить свой ответ посредством нескольких попыток. Для вычисления Pass@1 мы используем нашу процедуру majority voting (голосования большинством), которая рассчитывает вероятность того, что одна случайная выборка из набора будет правильной. Этот метод учитывает распределение правильных и неправильных ответов модели на задачу. Формально, если модель генерирует n сэмплов для задачи и k из них верны, Pass@1 рассчитывается как: Pass@1 = k/n Преимущество Pass@1 заключается в его простоте и ясности: он напрямую измеряет способность модели давать правильные ответы с первой попытки, что имеет решающее значение для многих практических применений. • Self-reported

72.0%

FACTS Grounding

Точность AI • Self-reported

85.3%

Global-MMLU-Lite

Точность В области математики и решения задач точность имеет первостепенное значение. Она измеряет способность модели выводить правильные ответы на поставленные перед ней вопросы. Точность можно оценить по различным аспектам: простой проверке конечного ответа, оценке промежуточных шагов в решении задачи, или определению того, могут ли рассуждения модели привести к верному конечному результату. Высокоточные модели ИИ должны не только предоставлять правильные ответы, но и делать это с минимальным количеством ошибок в своих вычислениях и логике. В рамках сложных математических задач эти модели должны сохранять точность на протяжении многих шагов рассуждений, правильно применять концепции и формулы, избегать вычислительных ошибок и, в конечном итоге, приходить к корректным выводам. Передовые модели машинного обучения оцениваются на математических бенчмарках различной сложности: от базовой арифметики до олимпиадных задач уровня AIME и IMO. Эти оценки точности помогают исследователям понять, насколько эффективно модели могут справляться с разнообразными математическими задачами и где требуются улучшения. • Self-reported

88.4%

Humanity's Last Exam

Точность AI: GPT-4o Human: Ты эксперт по переводу технических текстов о моделях искусственного интеллекта. Ты живой человек. Переведи следующий текст описания метода анализа модели ИИ на русский язык, соблюдая правила: 1. Используй точную техническую терминологию на русском языке. 2. Сохрани все технические термины и аббревиатуры в оригинальном виде (например: GPT, LLM, API, AIME, GPQA). Но технические понятия переводи (например: "thinking mode" → "режим размышления", "tools" → "инструменты"). 3. Переводи естественно, избегай калек и буквализмов. 4. Сохрани профессиональный тон описания. 5. Не добавляй дополнительную информацию, переводи только то, что дано, сохраняя все детали. 6. Названия моделей (например "GPT-5 nano", "Claude") оставляй на английском. 7. Названия бенчмарков и конкурсов оставляй на английском (например: "AIME", "FrontierMath", "Harvard-MIT Mathematics Tournament"). 8. Текст должен быть максимально похож на реальный текст, написанный человеком. 9. Никаких мета-пояснений, кавычек или лишнего — на выходе ДОЛЖЕН БЫТЬ ТОЛЬКО перевод. • Self-reported

11.0%

LiveCodeBench v5

Pass@1 Pass@1 — это метрика, которая измеряет, какой процент задач модель может решить с первой попытки. В отличие от оценки "Solve Rate", которая оценивает вероятность решения задачи после нескольких попыток, Pass@1 измеряет успех модели в генерации правильного ответа с первого раза. Эта метрика особенно важна в сценариях, где пользователи ожидают немедленных и точных результатов. Она отражает способность модели решать задачи без необходимости многократных попыток, что делает ее хорошим показателем надежности и точности модели. В контексте математических и программных задач, Pass@1 является строгой метрикой, поскольку требует, чтобы ответ был полностью правильным с первой попытки. Это делает Pass@1 особенно полезной для оценки моделей в высокоточных областях, где ошибки могут иметь серьезные последствия. Более высокий показатель Pass@1 означает, что модель более надежна и требует меньше итераций для достижения правильного ответа, что экономит время и вычислительные ресурсы. • Self-reported

63.9%

MRCR

1M-pointwise Это метод сравнения пар моделей, при котором для набора из миллиона разнообразных заданий и запросов мы отправляем один и тот же запрос двум различным моделям (например, Claude 3 Opus и GPT-4) и просим экспертов оценить, какой ответ лучше. Данный метод обеспечивает детальное понимание относительных сильных и слабых сторон моделей. Преимущества этого метода: - Он измеряет широкий спектр возможностей и дает подробное представление о сравнительной производительности. - Он проверяет способность моделей выполнять очень разнообразные задачи, которые могут выходить за рамки типичных бенчмарков. - Он включает реальные запросы пользователей, что делает его более репрезентативным для практического использования. Недостатки метода: - Точная статистическая интерпретация результатов может быть сложной из-за неоднородности данных. - Оценка миллиона разных запросов требует значительных ресурсов. - Различия между моделями могут быть незначительными, что затрудняет вынесение четких суждений об их превосходстве. • Self-reported

32.0%

SimpleQA

Точность AI • Self-reported

26.9%

Vibe-Eval

Точность Измеряет процент или долю правильных ответов, предоставленных моделью на наборе тестовых задач. Это наиболее распространенный показатель эффективности для многих задач, особенно тех, которые имеют определенные правильные ответы. Точность = (Количество правильных ответов) / (Общее количество вопросов) Преимущества: - Простота понимания и интерпретации - Подходит для задач с четко определенными правильными ответами - Позволяет напрямую сравнивать разные модели или подходы Ограничения: - Не учитывает сложность различных вопросов - Не отражает уверенность модели в своих ответах - Может быть недостаточно информативной для несбалансированных наборов данных - Не дает представления о характере ошибок • Self-reported

65.4%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Gemini 2.5 Flash

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 1.5 Pro

Gemini 2.5 Pro Preview 06-05

Gemini 2.5 Pro

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash-Lite

Gemini 2.0 Flash

Gemini 1.5 Flash

Grok-4