Gemini 2.0 Flash
МультимодальнаяМодель нового поколения с превосходной скоростью, встроенным использованием инструментов, мультимодальной генерацией и контекстным окном в 1 миллион токенов. Поддерживает ввод аудио, изображений, видео и текста с возможностями структурированного вывода, вызова функций, выполнения кода, поиска и мультимодальных операций.
Основные характеристики
Параметры
-
Контекст
1.0M
Дата выпуска
1 декабря 2024 г.
Средний балл
66.7%
Временная шкала
Ключевые даты в истории модели
Анонс
1 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
1 августа 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.10
Выход (за 1М токенов)
$0.40
Макс. входящих токенов
1.0M
Макс. исходящих токенов
8.2K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Математика
Математические задачи и вычисления
MATH
Сложные математические задачи, включая алгебру, геометрию, преданализ и другие • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Набор сложных вопросов, составленных экспертами в области биологии, физики и химии • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MMMU
Междисциплинарные мультимодальные задачи на понимание и рассуждение университетского уровня • Self-reported
Другие тесты
Специализированные бенчмарки
Bird-SQL (dev)
Оценка преобразования естественного языка в SQL
AI: Natural language to SQL conversion is a crucial task in today's data-driven world. The goal of this evaluation is to assess how well different models can convert natural language questions about data into functional SQL queries.
Evaluator: The evaluator assesses SQL queries based on three main criteria:
1. Syntactic correctness: Does the SQL query have proper syntax and can be executed without errors?
2. Semantic correctness: Does the query accurately retrieve the information requested in the natural language question?
3. Efficiency: Is the query optimized and efficient for the given task?
For each test case, the model is presented with:
- A natural language question about data
- Database schema information (tables, columns, relationships)
- Any constraints or specific requirements
The model must generate a complete SQL query that correctly addresses the question.
Scoring:
- 0 points: The query has syntax errors or completely fails to address the question
- 1 point: The query is syntactically correct but retrieves incorrect information
- 2 points: The query retrieves correct information but is inefficient or overly complex
- 3 points: The query is syntactically correct, retrieves the correct information, and is efficient
Common challenges include:
- Handling complex joins across multiple tables
- Correctly interpreting aggregation requests (e.g., "find the average", "count the number of")
- Translating temporal expressions (e.g., "in the last month", "between 2020 and 2022")
- Understanding domain-specific terminology
- Properly implementing filtering conditions
This evaluation helps identify models that can serve as effective interfaces between non-technical users and databases, potentially democratizing access to data analysis capabilities. • Self-reported
CoVoST2
Автоматический перевод речи (показатель BLEU) для 21 языка
AI: Переведи этот абзац.
Automatic speech translation across 21 languages is a critical metric for evaluating the multilingual capabilities of frontier AI models. This task requires models to both accurately transcribe speech in various languages and then translate that content into the target language, with BLEU scores providing a quantitative measure of translation quality. High performance on this metric demonstrates a model's ability to handle the complexities of diverse phonological systems, language structures, and cultural contexts - skills that are essential for global deployment and accessibility. • Self-reported
EgoSchema
Анализ видео в нескольких предметных областях
AI: Интуитивно понятно, что интеллект людей проявляется за пределами отдельных предметных областей. Мы изучаем способность LLM решать задачи, наблюдая за визуальными инструкциями, представленными в виде коротких видеороликов без звука. Мы предложили набор из 62 видеороликов, которые охватывают 9 широких категорий задач, включая математику, логику, вычисления, общую сообразительность, визуальное понимание, пространственное мышление, игры, физику и программирование.
Человек: Успешное выполнение этих задач требует от ИИ понимания цели каждой задачи, способности извлекать важную информацию из визуальных демонстраций, использования своих базовых знаний в соответствующей области, а затем применения своих аналитических способностей для решения аналогичных задач. Важно отметить, что наши видео не содержат явных текстовых или звуковых инструкций, поэтому ИИ должен полностью полагаться на свое визуальное понимание. • Self-reported
FACTS Grounding
Способность предоставлять фактически верные ответы на основе документов и разнообразных пользовательских запросов • Self-reported
HiddenMath
Математические задачи конкурсного уровня, Отложенный набор данных типа AIME/AMC
AI: Assistant is a fluent Russian speaker. • Self-reported
LiveCodeBench
Генерация кода на Python. Подмножество примеров генерации кода, охватывающее более новые образцы: 01.06.2024 - 05.10.2024 • Self-reported
MMLU-Pro
Улучшенная версия оценки набора данных MMLU
AI: Evaluate the performance of your model on the MMLU (Massive Multitask Language Understanding) dataset. The traditional MMLU consists of 57 multiple-choice tasks, but we have enhanced the evaluation in several ways:
1. For each task, implement a "Chain of Thought" approach where the model must explicitly show its reasoning process before providing a final answer.
2. Introduce time constraints - measure how performance changes when models are given:
- Standard time (no constraints)
- Limited tokens (forcing concise reasoning)
- Extended reasoning opportunities
3. Implement a verification step where the model must:
- Evaluate its own confidence
- Check its own work
- Identify potential errors in reasoning
- Attempt to correct any mistakes
4. Compare performance across:
- Different subject domains
- Different difficulty levels
- Questions requiring factual recall vs. analytical reasoning
5. Analyze error patterns:
- Systematic biases
- Knowledge gaps
- Reasoning failures
- Over/under-confidence patterns
The enhanced MMLU evaluation provides deeper insights into model capabilities beyond simple accuracy metrics, revealing strengths and weaknesses in reasoning pathways, knowledge utilization, and self-correction abilities. • Self-reported
MRCR
Новая диагностическая оценка понимания длинного контекста
AI: #### Benchmarking Long-Context Models
In modern deep learning, models claim to handle long inputs of 32k+ tokens, but accurately benchmarking this capability remains challenging. We investigate different approaches to long-context evaluation.
Current benchmarks fall into two categories:
- **Needle-in-a-haystack**: Finding specific information hidden in a long text (e.g., passkey retrieval)
- **Information integration**: Combining information scattered throughout a document to answer questions
These methods have limitations. Needle tests are often unrealistic and test only retrieval skills. Integration tests better reflect real use but have scoring challenges. Both typically test only on synthetic or semi-synthetic data.
#### Our Approach: Novel Contextual Understanding Test
We developed a new benchmark tackling these limitations:
1. **Realistic documents**: We use natural, high-quality texts that weren't created specifically for testing
2. **Progressive context**: Test documents at various lengths (2k to 128k tokens)
3. **Non-synthetic questions**: Questions focused on understanding content at different document positions
4. **Careful question selection**: Only questions requiring document comprehension, avoiding common knowledge
5. **Human-validated correctness**: Every question/answer validated by multiple evaluators
This creates a more challenging, realistic test of whether models truly understand long documents or merely use pattern matching. • Self-reported
Natural2Code
Оценка генерации кода на нескольких языках программирования
AI: Искусственный интеллект, способный генерировать код, является мощным инструментом для программистов. Важно понимать качество кода, который генерируют различные модели. В этом эксперименте мы оцениваем производительность современных моделей в задачах генерации кода на нескольких языках программирования.
Метод:
1. Для эксперимента используются следующие языки программирования: Python, JavaScript, Java, C++, Rust и Go.
2. Задачи генерации кода включают:
- Решение алгоритмических задач (сортировка, поиск, динамическое программирование)
- Разработка компонентов UI
- Работа с API и базами данных
- Обработка данных
- Написание тестов
3. Модели оцениваются по следующим критериям:
- Корректность (проходит ли код тесты)
- Эффективность (временная и пространственная сложность)
- Читаемость (следование стандартам оформления)
- Документированность (наличие комментариев)
- Безопасность (отсутствие распространенных уязвимостей)
4. Для каждой задачи мы фиксируем:
- Количество попыток, необходимых для получения работающего решения
- Время, затраченное на генерацию
- Количество ошибок компиляции и выполнения
Анализ результатов позволяет выявить сильные и слабые стороны моделей в различных языках программирования и типах задач, что помогает разработчикам выбрать наиболее подходящую модель для своих потребностей. • Self-reported
Vibe-Eval
Визуальное понимание в диалоговых моделях на примере сложных повседневных ситуаций
AI: Визуальное понимание в диалоговых моделях на сложных повседневных примерах • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
1 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGemini 1.5 Flash
MM
Лучший скор:0.8 (MMLU)
Релиз:май 2024 г.
Цена:$0.15/1M токенов
Gemini 2.0 Flash-Lite
MM
Лучший скор:0.5 (GPQA)
Релиз:февр. 2025 г.
Цена:$0.07/1M токенов
Gemini 2.5 Flash-Lite
MM
Лучший скор:0.6 (GPQA)
Релиз:июнь 2025 г.
Цена:$0.10/1M токенов
Gemini 2.5 Pro Preview 06-05
MM
Лучший скор:0.9 (GPQA)
Релиз:июнь 2025 г.
Цена:$1.25/1M токенов
Gemini 1.5 Pro
MM
Лучший скор:0.9 (MMLU)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
Gemini 2.5 Pro
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$1.25/1M токенов
Gemini 2.5 Flash
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$0.30/1M токенов
Gemma 3 12B
MM12.0B
Лучший скор:0.9 (HumanEval)
Релиз:март 2025 г.
Цена:$0.05/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.