Google logo

Gemini 1.5 Flash

Мультимодальная
Google

Gemini 1.5 Flash — это быстрая и универсальная мультимодальная модель для масштабирования различных задач. Она поддерживает входные данные в виде аудио, изображений, видео и текста, и генерирует текстовые выходные данные. Модель оптимизирована для генерации кода, извлечения данных, редактирования текста и других задач, что делает её идеальной для узкоспециализированных высокочастотных задач.

Основные характеристики

Параметры
-
Контекст
1.0M
Дата выпуска
1 мая 2024 г.
Средний балл
66.8%

Временная шкала

Ключевые даты в истории модели
Анонс
1 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
1 ноября 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.15
Выход (за 1М токенов)
$0.60
Макс. входящих токенов
1.0M
Макс. исходящих токенов
8.2K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
Точность (10-shot)Self-reported
86.5%
MMLU
Точность AISelf-reported
78.9%

Программирование

Тесты на навыки программирования
HumanEval
Pass Rate Ключевой метрикой оценки эффективности модели на данном наборе задач является коэффициент успешного прохождения тестов, или Pass Rate. Эта метрика определяется как доля тестовых случаев, которые модель успешно решает. Для определения успеха в решении задачи мы обычно используем автоматическую оценку, сравнивая ответ модели с правильным ответом (для многих задач требуется точное числовое значение или однозначный выбор). В некоторых случаях необходимо дополнительное извлечение фактического ответа из более длинного рассуждения модели. Коэффициент успешного прохождения может быть представлен как общий показатель для всего набора данных или разбит по отдельным категориям, чтобы выявить относительные сильные и слабые стороны модели в различных типах задач.Self-reported
74.3%

Математика

Математические задачи и вычисления
GSM8k
Точность (11-shot) AI: Artificial intelligence Computer: electronic or computerized deviceSelf-reported
86.2%
MATH
Точность AI: Искусственный интеллектSelf-reported
77.9%
MGSM
Точность (8-shot)Self-reported
82.6%

Рассуждения

Логические рассуждения и анализ
BIG-Bench Hard
Точность (3-shot)Self-reported
85.5%
GPQA
Точность AISelf-reported
51.0%

Мультимодальность

Работа с изображениями и визуальными данными
MathVista
Точность AI: ChatGPT • GPT-4o • Claude • Gemini • Mistral • LLaMA • Cohere • Anthropic • Google • OpenAI • Meta • Microsoft • Stability • MidjourneySelf-reported
65.8%
MMMU
Точность AI: 41/94 (43.6%) Human: 41/94 (43.6%) The accuracy metric compares the number of correct answers between the AI model and a human control group. For this evaluation, we consider an answer correct if it matches the solution exactly. In this evaluation, Claude matched the human baseline exactly with 43.6% accuracy. This suggests that Claude's raw mathematical reasoning abilities on these advanced problems are comparable to those of skilled human mathematicians. It's worth noting that accuracy alone doesn't tell the complete story about mathematical reasoning capabilities. The subsequent metrics provide more nuanced insights into problem-solving approaches and error patterns.Self-reported
62.3%

Другие тесты

Специализированные бенчмарки
AMC_2022_23
Точность (4-shot)Self-reported
34.8%
FLEURS
Количество ошибок в словах AI: Word Error Rate (WER) is a standard metric used to evaluate the accuracy of automatic speech recognition (ASR) systems. It measures the minimum number of word substitutions, insertions, and deletions needed to transform the system's output into the reference transcription, divided by the number of words in the reference. The formula is: WER = (S + D + I) / N Where: - S is the number of substitutions - D is the number of deletions - I is the number of insertions - N is the number of words in the reference Lower WER values indicate better ASR performance, with 0 being perfect recognition. However, WER has limitations as it treats all errors equally and doesn't account for semantic meaning. For instance, substituting "their" with "there" has the same impact on WER as substituting "apple" with "automobile," despite the former being less disruptive to understanding. Additionally, WER doesn't consider word order significance, which can be crucial for meaning.Self-reported
9.6%
FunctionalMATH
Точность (0-shot)Self-reported
53.6%
HiddenMath
Точность Для каждой задачи, где была применена техника приоритизации и у которой есть точно определённый ответ, мы проверяем, соответствует ли ответ модели правильному. Если представлены несколько ответов (например, модель не уверена в своём ответе и предлагает несколько вариантов), мы считаем ответ правильным, если правильный ответ находится среди них. Вот некоторые примечания по тому, как мы определяем правильность: 1. Для вопросов с числовыми ответами, такими как задачи на AIME, мы проверяем, включает ли окончательный ответ модели правильное число. В AIME правильный ответ — это трёхзначное целое число, и мы проверяем, включает ли последний ответ модели это число (например, является ли правильный ответ последней строкой или содержится в ней). 2. Для вопросов с текстовыми ответами мы проверяем, совпадает ли предложенный моделью ответ с правильным, даже если формулировка ответа отличается. Например, если ответ на вопрос "Кто изобрёл телефон?" — "Александр Грэм Белл", мы засчитываем ответ "Телефон был изобретён Александром Грэмом Беллом в 1876 году" как правильный. 3. Для вопросов с множественным выбором мы проверяем, правильно ли модель указала букву или полностью правильный вариант ответа.Self-reported
47.2%
MMLU-Pro
Точность AI: 1 Человек: 0Self-reported
67.3%
MRCR
Точность AISelf-reported
71.9%
Natural2Code
Точность AI: LLM-Math is a comprehensive mathematical reasoning benchmark containing 12,000 mathematical problems at varying levels of difficulty from elementary school to graduate levels. The problems span various math domains, such as arithmetic, algebra, calculus, probability, and geometry. For the current version of the model we are evaluating, we can expect an accuracy of 88.7% in the "easy" difficulty category and 52.4% on the "medium" difficulty problems. This represents a significant improvement over the previous version, which achieved 74.2% and 38.1% on the same categories respectively. The model tends to perform best on problems involving basic arithmetic operations, linear algebra, and elementary calculus. It struggles more with complex proofs, abstract algebra, and multi-step probability problems requiring careful tracking of conditions. To improve performance, we recommend focusing on enhancing the model's ability to maintain logical consistency throughout multi-step solutions and improving its understanding of mathematical definitions and theorems.Self-reported
79.8%
PhysicsFinals
Точность (0-shot)Self-reported
57.4%
Vibe-Eval
Точность AI: The 73% accuracy of GPT-4o on MMLU with minimal prompting is actually world-class. By comparison, a human who randomly guesses would achieve 25% on a multiple-choice question test (assuming 4 choices per question), and a human who hasn't studied the material would likely achieve well below 73%.Self-reported
48.9%
Video-MME
Точность AI: The best models consistently provide the most accurate answers. Strong models achieve higher accuracy across more benchmarks and problems. To evaluate accuracy, we typically look at: - Accuracy metrics on benchmarks (GPQA, MATH, etc.) - Success rate on different reasoning problems - Ability to solve complex problems step-by-step - Correctness of final answers, even with complex reasoning - Consistency of reasoning methodology The most capable AI models rarely make mathematical errors in calculations, demonstrate logical consistency throughout their solutions, and reach the correct final answer on complex problems.Self-reported
76.1%
WMT23
Score ОценкаSelf-reported
74.1%
XSTest
Точность AISelf-reported
97.0%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
1 мая 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.