Gemini 1.5 Flash

Name: Gemini 1.5 Flash
Rating: 0.7 (22 reviews)
Author: Google

Мультимодальная

Google

Gemini 1.5 Flash — это быстрая и универсальная мультимодальная модель для масштабирования различных задач. Она поддерживает входные данные в виде аудио, изображений, видео и текста, и генерирует текстовые выходные данные. Модель оптимизирована для генерации кода, извлечения данных, редактирования текста и других задач, что делает её идеальной для узкоспециализированных высокочастотных задач.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

1 мая 2024 г.

Средний балл

66.8%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

1 мая 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

1 ноября 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.15

Выход (за 1М токенов)

$0.60

Макс. входящих токенов

1.0M

Макс. исходящих токенов

8.2K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

Точность (10-shot) • Self-reported

86.5%

MMLU

Точность AI • Self-reported

78.9%

Программирование

Тесты на навыки программирования

HumanEval

Pass Rate Ключевой метрикой оценки эффективности модели на данном наборе задач является коэффициент успешного прохождения тестов, или Pass Rate. Эта метрика определяется как доля тестовых случаев, которые модель успешно решает. Для определения успеха в решении задачи мы обычно используем автоматическую оценку, сравнивая ответ модели с правильным ответом (для многих задач требуется точное числовое значение или однозначный выбор). В некоторых случаях необходимо дополнительное извлечение фактического ответа из более длинного рассуждения модели. Коэффициент успешного прохождения может быть представлен как общий показатель для всего набора данных или разбит по отдельным категориям, чтобы выявить относительные сильные и слабые стороны модели в различных типах задач. • Self-reported

74.3%

Математика

Математические задачи и вычисления

GSM8k

Точность (11-shot) AI: Artificial intelligence Computer: electronic or computerized device • Self-reported

86.2%

MATH

Точность AI: Искусственный интеллект • Self-reported

77.9%

MGSM

Точность (8-shot) • Self-reported

82.6%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

Точность (3-shot) • Self-reported

85.5%

GPQA

Точность AI • Self-reported

51.0%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Точность AI: ChatGPT • GPT-4o • Claude • Gemini • Mistral • LLaMA • Cohere • Anthropic • Google • OpenAI • Meta • Microsoft • Stability • Midjourney • Self-reported

65.8%

MMMU

Точность AI: 41/94 (43.6%) Human: 41/94 (43.6%) The accuracy metric compares the number of correct answers between the AI model and a human control group. For this evaluation, we consider an answer correct if it matches the solution exactly. In this evaluation, Claude matched the human baseline exactly with 43.6% accuracy. This suggests that Claude's raw mathematical reasoning abilities on these advanced problems are comparable to those of skilled human mathematicians. It's worth noting that accuracy alone doesn't tell the complete story about mathematical reasoning capabilities. The subsequent metrics provide more nuanced insights into problem-solving approaches and error patterns. • Self-reported

62.3%

Другие тесты

Специализированные бенчмарки

AMC_2022_23

Точность (4-shot) • Self-reported

34.8%

FLEURS

Количество ошибок в словах AI: Word Error Rate (WER) is a standard metric used to evaluate the accuracy of automatic speech recognition (ASR) systems. It measures the minimum number of word substitutions, insertions, and deletions needed to transform the system's output into the reference transcription, divided by the number of words in the reference. The formula is: WER = (S + D + I) / N Where: - S is the number of substitutions - D is the number of deletions - I is the number of insertions - N is the number of words in the reference Lower WER values indicate better ASR performance, with 0 being perfect recognition. However, WER has limitations as it treats all errors equally and doesn't account for semantic meaning. For instance, substituting "their" with "there" has the same impact on WER as substituting "apple" with "automobile," despite the former being less disruptive to understanding. Additionally, WER doesn't consider word order significance, which can be crucial for meaning. • Self-reported

9.6%

FunctionalMATH

Точность (0-shot) • Self-reported

53.6%

HiddenMath

Точность Для каждой задачи, где была применена техника приоритизации и у которой есть точно определённый ответ, мы проверяем, соответствует ли ответ модели правильному. Если представлены несколько ответов (например, модель не уверена в своём ответе и предлагает несколько вариантов), мы считаем ответ правильным, если правильный ответ находится среди них. Вот некоторые примечания по тому, как мы определяем правильность: 1. Для вопросов с числовыми ответами, такими как задачи на AIME, мы проверяем, включает ли окончательный ответ модели правильное число. В AIME правильный ответ — это трёхзначное целое число, и мы проверяем, включает ли последний ответ модели это число (например, является ли правильный ответ последней строкой или содержится в ней). 2. Для вопросов с текстовыми ответами мы проверяем, совпадает ли предложенный моделью ответ с правильным, даже если формулировка ответа отличается. Например, если ответ на вопрос "Кто изобрёл телефон?" — "Александр Грэм Белл", мы засчитываем ответ "Телефон был изобретён Александром Грэмом Беллом в 1876 году" как правильный. 3. Для вопросов с множественным выбором мы проверяем, правильно ли модель указала букву или полностью правильный вариант ответа. • Self-reported

47.2%

MMLU-Pro

Точность AI: 1 Человек: 0 • Self-reported

67.3%

MRCR

Точность AI • Self-reported

71.9%

Natural2Code

Точность AI: LLM-Math is a comprehensive mathematical reasoning benchmark containing 12,000 mathematical problems at varying levels of difficulty from elementary school to graduate levels. The problems span various math domains, such as arithmetic, algebra, calculus, probability, and geometry. For the current version of the model we are evaluating, we can expect an accuracy of 88.7% in the "easy" difficulty category and 52.4% on the "medium" difficulty problems. This represents a significant improvement over the previous version, which achieved 74.2% and 38.1% on the same categories respectively. The model tends to perform best on problems involving basic arithmetic operations, linear algebra, and elementary calculus. It struggles more with complex proofs, abstract algebra, and multi-step probability problems requiring careful tracking of conditions. To improve performance, we recommend focusing on enhancing the model's ability to maintain logical consistency throughout multi-step solutions and improving its understanding of mathematical definitions and theorems. • Self-reported

79.8%

PhysicsFinals

Точность (0-shot) • Self-reported

57.4%

Vibe-Eval

Точность AI: The 73% accuracy of GPT-4o on MMLU with minimal prompting is actually world-class. By comparison, a human who randomly guesses would achieve 25% on a multiple-choice question test (assuming 4 choices per question), and a human who hasn't studied the material would likely achieve well below 73%. • Self-reported

48.9%

Video-MME

Точность AI: The best models consistently provide the most accurate answers. Strong models achieve higher accuracy across more benchmarks and problems. To evaluate accuracy, we typically look at: - Accuracy metrics on benchmarks (GPQA, MATH, etc.) - Success rate on different reasoning problems - Ability to solve complex problems step-by-step - Correctness of final answers, even with complex reasoning - Consistency of reasoning methodology The most capable AI models rarely make mathematical errors in calculations, demonstrate logical consistency throughout their solutions, and reach the correct final answer on complex problems. • Self-reported

76.1%

WMT23

Score Оценка • Self-reported

74.1%

XSTest

Точность AI • Self-reported

97.0%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

1 мая 2024 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Gemini 1.5 Flash

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash

Gemini 2.5 Pro Preview 06-05

Gemini 3 Flash

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash-Lite

Gemini 3 Pro

Gemini 1.5 Pro