Gemini 2.0 Flash-Lite

Мультимодальная

Google

Модель Gemini 2.0 Flash, оптимизированная для экономической эффективности и низкой задержки

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

5 февраля 2025 г.

Средний балл

59.0%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

5 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

1 июня 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.07

Выход (за 1М токенов)

$0.30

Макс. входящих токенов

1.0M

Макс. исходящих токенов

8.2K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Математика

Математические задачи и вычисления

MATH

Стандартный AI: Переведи текст • Self-reported

86.8%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond В контексте систем искусственного интеллекта Diamond - это подход к анализу способности моделей решать сложные задачи. Diamond оценивает возможности модели путем предоставления задачи и затем последовательного раскрытия информации, как бы создавая "подсказки" или "намёки" к решению. Каждая дополнительная подсказка позволяет модели взглянуть на проблему с новой перспективы. Например, модели может быть предоставлена сложная математическая задача. Если она не может её решить, даётся подсказка, например, рекомендация рассмотреть проблему с использованием определённого уравнения. Если модель всё еще не может решить задачу, предоставляется ещё одна подсказка, например, указание на конкретный шаг или преобразование. Этот подход полезен для: 1. Оценки пороговых знаний и навыков модели 2. Понимания того, какой уровень подсказок необходим для успешного решения задачи 3. Сравнения разных моделей по их способности решать задачи с разными уровнями подсказок Diamond также может выявить, как модели используют контекстную информацию и насколько они способны интегрировать новые подсказки в свой существующий процесс решения. • Self-reported

51.5%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

Многопрофильные мультимодальные задачи на понимание и рассуждение университетского уровня • Self-reported

68.0%

Другие тесты

Специализированные бенчмарки

Bird-SQL (dev)

# Оценка Мы исследуем характеристики модели GPT-4o на наборе сложных задач и оцениваем её производительность с помощью смеси автоматических и ручных методов оценки. Особое внимание уделяется выявлению областей, в которых модель демонстрирует существенные улучшения или сохраняет ограничения. ## Автоматизированная оценка Мы тестируем GPT-4o на нескольких установленных эталонных тестах, сравнивая результаты с предыдущими моделями GPT, а также с другими доступными моделями, такими как Claude и Gemini. Эти оценки включают: - **Стандартные бенчмарки**: MMLU, HumanEval, GPQA и другие общепринятые тесты. - **Математические задачи**: Задания из соревнований, таких как AIME и FrontierMath. - **Рассуждение на естественном языке**: Задачи логического вывода и понимания контекста. - **Мультимодальная обработка**: Тесты на распознавание изображений, аудио и комбинированного ввода. ## Человеческая оценка Квалифицированные оценщики анализируют образцы ответов GPT-4o, сравнивая их с другими моделями. Эта оценка включает: - **Точность**: Правильность фактов и логических выводов. - **Полезность**: Практическая ценность ответов для пользователей. - **Мастерство предметной области**: Глубина знаний в специализированных областях. - **Оригинальность**: Способность генерировать уникальные решения и избегать плагиата. - **Адаптивность**: Насколько хорошо модель следует инструкциям и приспосабливается к разным контекстам. ## Выявление ограничений Мы систематически тестируем известные ограничения предыдущих моделей, чтобы определить, были ли они преодолены в GPT-4o: - **Галлюцинации**: Насколько часто модель генерирует неверную информацию. - **Математические ошибки**: Точность в сложных расчетах и задачах. - **Временные знания**: Актуальность информации и осведомленность о недавних событиях. - **Уязвимости к джейлбрейкам**: Устойчивость к попыткам обойти встроенные ограничения. - **Управление токсичностью**: Способность избегать вредного или неприемлемого содержания. Эти оценки помогают нам сформировать комплексное представление о возможностях и • Self-reported

57.4%

CoVoST2

Автоматический перевод речи (показатель BLEU) на 21 языке AI: Self-evaluate using an automatic translation benchmark called BLEU. For each language pair, the AI must translate 100 short sentences. Scores are normalized from 0-100 based on comparison with human reference translations. Method details: - Each language pair (e.g., English→Japanese) includes both common and technical sentences - Equal weighting across all language pairs regardless of difficulty - Proper handling of non-Latin scripts and dialects is essential - Automatic scoring prevents "gaming" the benchmark - Evaluation corpus spans topics including medical, legal, technical and casual conversation Key languages evaluated include: Arabic, Bengali, Chinese, English, French, German, Hindi, Indonesian, Italian, Japanese, Korean, Portuguese, Russian, Spanish, Swahili, Tagalog, Tamil, Thai, Turkish, Ukrainian, and Vietnamese. • Self-reported

38.4%

EgoSchema

Анализ видео в нескольких предметных областях AI: Переведи следующий текст: # PIC2TEXT: LEVERAGING VISION ENCODERS FOR PROGRAMMING IN CONTEXT Large language models (LLMs) have shown remarkable capabilities in many domains, including program synthesis. However, when it comes to understanding and manipulating images, these models face significant limitations. In this paper, we present PIC2TEXT, a novel approach to convert multimodal input (text and images) into a purely textual format, allowing us to leverage the full power of LLMs for programming with image inputs. PIC2TEXT uses a high-quality vision encoder to translate images into detailed textual descriptions, which are then combined with the original text to form a unified textual representation. This transformation enables LLMs to understand and reason about visual content in the context of programming tasks, without requiring multimodal training. Through extensive experiments on programming tasks involving image processing, scene understanding, and object recognition, we demonstrate that PIC2TEXT significantly enhances LLMs' ability to write code that correctly processes image inputs. Our results show that this approach enables LLMs to tackle a variety of image-related programming tasks across Python, JavaScript, and other languages, opening up new possibilities for image-based programming assistance. • Self-reported

67.2%

FACTS Grounding

- оценка • Self-reported

83.6%

Global-MMLU-Lite

0-shot оценка AI: 0-shot означает, что мы не предоставляем модели примеры того, как выполнять задачу, перед тем как ей дать задание. Исследователи могут использовать 0-shot оценку для измерения способности модели к обобщению, когда она сталкивается с новой задачей, которую никогда раньше не решала. Это может быть хорошим способом проверить, действительно ли модель понимает задачу или просто вспоминает решения из данных, на которых она обучалась. • Self-reported

78.2%

HiddenMath

0-shot оценка AI : It's interesting that you specify no prompt for GPQA or MATH, since I know they usually involve multi-step reasoning. Let me work through this carefully. For zero-shot evaluation on GPQA and MATH datasets: 1. I'll receive questions without any specific instructions or examples. 2. For each question, I need to: - Understand what's being asked - Formulate a clear solution approach - Work through the problem step-by-step - Verify my reasoning - Provide a final answer in the expected format For GPQA specifically, which contains graduate-level physics questions, I'll need to: - Apply fundamental physics principles - Perform mathematical derivations when needed - Use appropriate formulas and theories - Express answers with correct units and precision For MATH problems, which include competition-style mathematics: - Identify the mathematical domains involved - Apply relevant theorems and techniques - Show complete work/derivation - Verify solutions through cross-checking I'll maintain clarity in my reasoning and ensure answers are precise and well-justified, even without specific prompting instructions. • Self-reported

55.3%

LiveCodeBench v5

# Pass@1 Процент успешных решений задачи за одну попытку. Эта метрика является одним из основных способов измерения способности модели решать задачи. Pass@1 (также известный как "точность первой попытки") указывает, какой процент задач модель решает правильно при генерации одного ответа. Поскольку ответы модели часто содержат случайные элементы, Pass@1 можно надежно измерить, сделав несколько попыток на каждую задачу и вычислив долю правильных решений. В литературе для этого обычно используется оценка непредвзятого pass@k: Pass@1 = 1 - (1 - c/n)^k где c — количество правильных решений среди n попыток, а k = 1. Показатель Pass@1 является важной метрикой для широкого спектра задач, включая математические и программистские соревнования, научные головоломки и любые задачи с четко определенными критериями правильности ответа. • Self-reported

28.9%

MMLU-Pro

Точность цепочки рассуждений Данный метод оценивает промежуточные шаги рассуждений модели, а не только конечный ответ. Каждый шаг должен быть правильным для получения верного решения. Преимущества: - Обеспечивает более глубокий анализ способности модели к рассуждениям - Помогает идентифицировать, где именно происходят ошибки в последовательности рассуждений - Поощряет модели к развернутому объяснению своего мыслительного процесса Недостатки: - Сложно автоматизировать оценку; часто требуется ручная проверка экспертами - Субъективность в оценке корректности каждого шага - Возможны разные действительные подходы к решению одной и той же проблемы Примеры применения: - Оценка математических задач, требующих многошаговых решений - Логические головоломки, где важна последовательность вывода - Задачи программирования, где необходимо отслеживать логику кода • Self-reported

71.6%

MRCR 1M

Точность понимания длинного контекста AI: Возьми случайные длинные тексты (>50K токенов), такие как доклады, технические руководства или научные статьи. Оценщик: Создай подробные вопросы, связанные с информацией в разных частях документа. Метод оценки: Попроси модель ответить на эти вопросы. Затем сравни ответы с фактическим содержанием документа. Дополнительные соображения: - Создавай вопросы разной сложности, от простых фактов до тех, что требуют связывания информации из разных разделов - Проверяй способность модели находить противоречивую информацию в документе - Проверяй точность при извлечении числовых данных и статистики из текста - Измеряй скорость ухудшения понимания по мере увеличения длины документа • Self-reported

58.0%

SimpleQA

Фактическая точность AI: изложите ваше текущее понимание темы, не опираясь на внешние ресурсы Исследователь: проверяет качество ответа через независимые источники Цель: оценить базовые знания модели, определить склонность к галлюцинациям и измерить объективную точность. Преимущества: измеряет точность информации, выявляет неправильные представления. Недостатки: модели могут звучать уверенно даже при ошибках, проверка требует времени. Примечание: модели часто демонстрируют различные профили фактической точности в разных областях знаний. Подтверждение через независимые источники крайне важно. • Self-reported

21.7%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

5 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

Gemini 2.0 Flash-Lite

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 2.5 Flash-Lite

Gemini 1.5 Pro

Gemini 2.5 Pro Preview 06-05

Gemini 1.5 Flash

Gemini 2.0 Flash

Gemini 2.5 Flash

Gemma 3 4B

Gemma 3n E4B Instructed