Gemini 2.0 Flash

Мультимодальная

Google

Модель нового поколения с превосходной скоростью, встроенным использованием инструментов, мультимодальной генерацией и контекстным окном в 1 миллион токенов. Поддерживает ввод аудио, изображений, видео и текста с возможностями структурированного вывода, вызова функций, выполнения кода, поиска и мультимодальных операций.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

1 декабря 2024 г.

Средний балл

66.7%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

1 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

1 августа 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.40

Макс. входящих токенов

1.0M

Макс. исходящих токенов

8.2K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Математика

Математические задачи и вычисления

MATH

Сложные математические задачи, включая алгебру, геометрию, преданализ и другие • Self-reported

89.7%

Рассуждения

Логические рассуждения и анализ

GPQA

Набор сложных вопросов, составленных экспертами в области биологии, физики и химии • Self-reported

62.1%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

Междисциплинарные мультимодальные задачи на понимание и рассуждение университетского уровня • Self-reported

70.7%

Другие тесты

Специализированные бенчмарки

Bird-SQL (dev)

Оценка преобразования естественного языка в SQL AI: Natural language to SQL conversion is a crucial task in today's data-driven world. The goal of this evaluation is to assess how well different models can convert natural language questions about data into functional SQL queries. Evaluator: The evaluator assesses SQL queries based on three main criteria: 1. Syntactic correctness: Does the SQL query have proper syntax and can be executed without errors? 2. Semantic correctness: Does the query accurately retrieve the information requested in the natural language question? 3. Efficiency: Is the query optimized and efficient for the given task? For each test case, the model is presented with: - A natural language question about data - Database schema information (tables, columns, relationships) - Any constraints or specific requirements The model must generate a complete SQL query that correctly addresses the question. Scoring: - 0 points: The query has syntax errors or completely fails to address the question - 1 point: The query is syntactically correct but retrieves incorrect information - 2 points: The query retrieves correct information but is inefficient or overly complex - 3 points: The query is syntactically correct, retrieves the correct information, and is efficient Common challenges include: - Handling complex joins across multiple tables - Correctly interpreting aggregation requests (e.g., "find the average", "count the number of") - Translating temporal expressions (e.g., "in the last month", "between 2020 and 2022") - Understanding domain-specific terminology - Properly implementing filtering conditions This evaluation helps identify models that can serve as effective interfaces between non-technical users and databases, potentially democratizing access to data analysis capabilities. • Self-reported

56.9%

CoVoST2

Автоматический перевод речи (показатель BLEU) для 21 языка AI: Переведи этот абзац. Automatic speech translation across 21 languages is a critical metric for evaluating the multilingual capabilities of frontier AI models. This task requires models to both accurately transcribe speech in various languages and then translate that content into the target language, with BLEU scores providing a quantitative measure of translation quality. High performance on this metric demonstrates a model's ability to handle the complexities of diverse phonological systems, language structures, and cultural contexts - skills that are essential for global deployment and accessibility. • Self-reported

39.2%

EgoSchema

Анализ видео в нескольких предметных областях AI: Интуитивно понятно, что интеллект людей проявляется за пределами отдельных предметных областей. Мы изучаем способность LLM решать задачи, наблюдая за визуальными инструкциями, представленными в виде коротких видеороликов без звука. Мы предложили набор из 62 видеороликов, которые охватывают 9 широких категорий задач, включая математику, логику, вычисления, общую сообразительность, визуальное понимание, пространственное мышление, игры, физику и программирование. Человек: Успешное выполнение этих задач требует от ИИ понимания цели каждой задачи, способности извлекать важную информацию из визуальных демонстраций, использования своих базовых знаний в соответствующей области, а затем применения своих аналитических способностей для решения аналогичных задач. Важно отметить, что наши видео не содержат явных текстовых или звуковых инструкций, поэтому ИИ должен полностью полагаться на свое визуальное понимание. • Self-reported

71.5%

FACTS Grounding

Способность предоставлять фактически верные ответы на основе документов и разнообразных пользовательских запросов • Self-reported

83.6%

HiddenMath

Математические задачи конкурсного уровня, Отложенный набор данных типа AIME/AMC AI: Assistant is a fluent Russian speaker. • Self-reported

63.0%

LiveCodeBench

Генерация кода на Python. Подмножество примеров генерации кода, охватывающее более новые образцы: 01.06.2024 - 05.10.2024 • Self-reported

35.1%

MMLU-Pro

Улучшенная версия оценки набора данных MMLU AI: Evaluate the performance of your model on the MMLU (Massive Multitask Language Understanding) dataset. The traditional MMLU consists of 57 multiple-choice tasks, but we have enhanced the evaluation in several ways: 1. For each task, implement a "Chain of Thought" approach where the model must explicitly show its reasoning process before providing a final answer. 2. Introduce time constraints - measure how performance changes when models are given: - Standard time (no constraints) - Limited tokens (forcing concise reasoning) - Extended reasoning opportunities 3. Implement a verification step where the model must: - Evaluate its own confidence - Check its own work - Identify potential errors in reasoning - Attempt to correct any mistakes 4. Compare performance across: - Different subject domains - Different difficulty levels - Questions requiring factual recall vs. analytical reasoning 5. Analyze error patterns: - Systematic biases - Knowledge gaps - Reasoning failures - Over/under-confidence patterns The enhanced MMLU evaluation provides deeper insights into model capabilities beyond simple accuracy metrics, revealing strengths and weaknesses in reasoning pathways, knowledge utilization, and self-correction abilities. • Self-reported

76.4%

MRCR

Новая диагностическая оценка понимания длинного контекста AI: #### Benchmarking Long-Context Models In modern deep learning, models claim to handle long inputs of 32k+ tokens, but accurately benchmarking this capability remains challenging. We investigate different approaches to long-context evaluation. Current benchmarks fall into two categories: - **Needle-in-a-haystack**: Finding specific information hidden in a long text (e.g., passkey retrieval) - **Information integration**: Combining information scattered throughout a document to answer questions These methods have limitations. Needle tests are often unrealistic and test only retrieval skills. Integration tests better reflect real use but have scoring challenges. Both typically test only on synthetic or semi-synthetic data. #### Our Approach: Novel Contextual Understanding Test We developed a new benchmark tackling these limitations: 1. **Realistic documents**: We use natural, high-quality texts that weren't created specifically for testing 2. **Progressive context**: Test documents at various lengths (2k to 128k tokens) 3. **Non-synthetic questions**: Questions focused on understanding content at different document positions 4. **Careful question selection**: Only questions requiring document comprehension, avoiding common knowledge 5. **Human-validated correctness**: Every question/answer validated by multiple evaluators This creates a more challenging, realistic test of whether models truly understand long documents or merely use pattern matching. • Self-reported

69.2%

Natural2Code

Оценка генерации кода на нескольких языках программирования AI: Искусственный интеллект, способный генерировать код, является мощным инструментом для программистов. Важно понимать качество кода, который генерируют различные модели. В этом эксперименте мы оцениваем производительность современных моделей в задачах генерации кода на нескольких языках программирования. Метод: 1. Для эксперимента используются следующие языки программирования: Python, JavaScript, Java, C++, Rust и Go. 2. Задачи генерации кода включают: - Решение алгоритмических задач (сортировка, поиск, динамическое программирование) - Разработка компонентов UI - Работа с API и базами данных - Обработка данных - Написание тестов 3. Модели оцениваются по следующим критериям: - Корректность (проходит ли код тесты) - Эффективность (временная и пространственная сложность) - Читаемость (следование стандартам оформления) - Документированность (наличие комментариев) - Безопасность (отсутствие распространенных уязвимостей) 4. Для каждой задачи мы фиксируем: - Количество попыток, необходимых для получения работающего решения - Время, затраченное на генерацию - Количество ошибок компиляции и выполнения Анализ результатов позволяет выявить сильные и слабые стороны моделей в различных языках программирования и типах задач, что помогает разработчикам выбрать наиболее подходящую модель для своих потребностей. • Self-reported

92.9%

Vibe-Eval

Визуальное понимание в диалоговых моделях на примере сложных повседневных ситуаций AI: Визуальное понимание в диалоговых моделях на сложных повседневных примерах • Self-reported

56.3%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

1 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Gemini 2.0 Flash

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 1.5 Flash

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash-Lite

Gemini 2.5 Pro Preview 06-05

Gemini 1.5 Pro

Gemini 2.5 Pro

Gemini 2.5 Flash

Gemma 3 12B