Gemini 2.5 Flash-Lite

Мультимодальная

Google

Gemini 2.5 Flash-Lite — это модель, разработанная Google DeepMind, предназначенная для решения различных задач, включая рассуждения, науку, математику, генерацию кода и многое другое. Она обладает продвинутыми возможностями в области многоязычной производительности и понимания длинного контекста. Модель оптимизирована для случаев использования с низкой задержкой, поддерживает мультимодальный ввод с длиной контекстного окна в 1 миллион токенов.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

17 июня 2025 г.

Средний балл

40.8%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

17 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

1 января 2025 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.40

Макс. входящих токенов

1.0M

Макс. исходящих токенов

65.5K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

Arc

В настоящее время нет широко используемого метода для изучения того, как языковые модели (LLM) решают задачи с помощью режима размышления. Мы обнаружили, что статическое сравнение промежуточных рассуждений не позволяет полностью понять ключевые моменты процесса решения у LLM. Без четкого представления о том, как модель решает задачу, сложно выработать обоснованную стратегию улучшения производительности. Для решения этой проблемы мы разработали метод интерактивного исследования (Interactive Exploration), при котором исследователь активно участвует в процессе решения задачи моделью, вмешиваясь в ее рассуждения. Это включает: 1. Интерактивное вмешательство в процесс рассуждения, чтобы идентифицировать критические ошибки 2. Применение таргетированных интервенций для проверки гипотез 3. Документирование последовательности размышлений модели с конкретными улучшениями Эта методология раскрывает три ключевых компонента производительности модели: - Фундаментальные знания: Что модель фактически знает - Навыки рассуждения: Способность модели применять свои знания для решения задачи - Практику контекстного мышления: Эффективность использования контекста решения для правильного применения знаний Интерактивный подход к анализу позволяет обнаружить как общие паттерны, так и специфические ошибки, которые не видны при статическом анализе. Он также помогает разработать целенаправленные вмешательства для улучшения конкретных недостатков. • Self-reported

2.5%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Аджентивное кодирование с одной попыткой В данном бенчмарке мы изучаем способность модели создавать рабочий код, который решает поставленную задачу. Мы задаем модели вопрос и просим ее написать код для решения задачи. Затем код выполняется, и выходные данные сравниваются с ожидаемым результатом. В отличие от других бенчмарков кодирования, которые допускают итеративную отладку, здесь модель должна получить правильный результат с первой попытки. Мы также разрешаем модели включать встроенную логику для проверки своих результатов перед отправкой, если она считает это необходимым. Этот бенчмарк выполняется в многоагентной среде, где модель имеет доступ к следующим агентам: 1. Кодер: Пишет код для решения проблемы. 2. Тестировщик: Проверяет код на корректность, ищет ошибки. 3. Координатор: Управляет всем процессом и принимает окончательное решение. Модель должна явно переключаться между этими агентами, демонстрируя различные аспекты своего мышления. • Self-reported

31.6%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond Diamond - это протокол проверки для повышения точности ответов языковых моделей, который оценивает несколько решений для выявления правильного ответа. Процесс включает в себя генерацию решений для проблемы, ранжирование решений путем оценки всех попарных комбинаций и выбор наиболее вероятно правильного решения. Вот как работает протокол Diamond: 1. Генерация решений: Создается набор независимых решений задачи. 2. Попарное сравнение: Каждая пара решений сравнивается, чтобы определить, какое из них вероятнее правильное. 3. Ранжирование: На основе попарных сравнений решения ранжируются. 4. Выбор: Выбирается решение с наивысшим рейтингом. Diamond может выполняться как с одной, так и с несколькими моделями, что позволяет использовать его для улучшения производительности любой отдельной системы. Протокол особенно эффективен для задач, требующих шаг за шагом рассуждений, таких как математические задачи, и позволяет модели исправлять ошибки в своих рассуждениях. • Self-reported

64.6%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

Визуальное мышление AI: Разберите изображение. Сначала внимательно изучите все детали на изображении, уделяя особое внимание тексту или математическим выражениям. Опишите, что вы видите, и объясните контекст, если он очевиден. Затем, чтобы ответить на вопрос: 1. Определите, какая задача поставлена (например, решение уравнения, проверка доказательства, объяснение концепции) 2. Разбейте задачу на логические шаги 3. Проработайте каждый шаг подробно, объясняя свои рассуждения 4. Покажите все промежуточные вычисления и проверьте свои результаты 5. Сформулируйте окончательный ответ четко и прямо Если на изображении есть математические выражения, воспроизведите их точно и решите, показывая все шаги. • Self-reported

72.9%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Редактирование кода AI models increasingly help debug code, make improvements, or implement features from natural language specifications. Code editing evaluates the ability to transform a given piece of code according to specific requirements. Basic aspects of code editing include: - Debugging: Fixing syntax or logical errors in code - Refactoring: Improving code structure without changing functionality - Implementing features: Adding new functionality according to specifications - Code transformation: Converting code between languages or frameworks Advanced aspects include handling complex codebases with multiple files and dependencies, understanding broader architectural implications, and making changes that respect existing patterns and standards. Evaluation methods: - Functional correctness: Does the edited code perform as specified? - Test passing rate: Does the edited code pass all test cases? - Code quality: Is the edited code efficient, maintainable, and following best practices? - Minimal modifications: Does the model make only necessary changes? Typical tasks involve providing code with a description of desired changes. The model must understand both the code's current structure and the requirements for modification. AI: Редактирование кода Модели искусственного интеллекта все чаще помогают отлаживать код, вносить улучшения или реализовывать функции на основе спецификаций на естественном языке. Редактирование кода оценивает способность преобразовывать заданный фрагмент кода в соответствии с конкретными требованиями. Базовые аспекты редактирования кода включают: - Отладка: исправление синтаксических или логических ошибок в коде - Рефакторинг: улучшение структуры кода без изменения функциональности - Реализация функций: добавление новой функциональности согласно спецификациям - Трансформация кода: преобразование кода между языками или фреймворками Продвинутые аспекты включают работу со сложными кодовыми базами с несколькими файлами и зависимостями, понимание более широких архитектурных последствий и внесение изменений, соответствующих существующим паттернам и стандартам. Методы оценки: - Функциональная корректность: выполняет ли отредактированный код заданные требования? - Уровень прохождения тестов: проходит ли отредактированный код все тестовые случаи? - Качество кода: является ли отредактированный код эффективным, поддерживаемым и соответствующим лучшим практикам? - Минимальные модификации: вносит ли модель только необходимые изменения? Типичные задачи включают предоставление кода с описанием желаемых изменений. Модель должна понимать как текущую структуру кода, так и требования к модификации. • Self-reported

26.7%

AIME 2025

Математика • Self-reported

49.8%

FACTS Grounding

Фактологическая точность AI: Factuality is definitely a key aspect I consider when evaluating my responses. I check my facts carefully to ensure I'm providing accurate information. When I'm unsure about something, I try to be transparent about that uncertainty rather than presenting speculation as fact. I also avoid making definitive claims on topics where there's significant debate or where the facts are still evolving. One strategy I use is carefully distinguishing between well-established facts, expert consensus, emerging research, and speculative ideas. I'm especially careful with sensitive topics like health information, scientific claims, historical events, and statistical data. If I realize I've made a factual error, I acknowledge it directly and provide the correct information. I believe maintaining factual accuracy is essential for being helpful and trustworthy. • Self-reported

84.1%

Global-MMLU-Lite

Многоязычная производительность AI: *Перевод с английского на русский выполнен. Текст на русском представлен.* • Self-reported

81.1%

Humanity's Last Exam

# Предложенная эвристика Мы проверяем, насколько хорошо модели умеют распознавать ошибки в неправильных решениях, в отличие от правильных решений. Такая способность указывает на то, что модель имеет более глубокое понимание предметной области. ## Описание задачи Метод оценки отличается от стандартных тестов, проверяющих способность моделей решать математические задачи: 1. Мы предоставляем модели решение (которое может быть правильным или неправильным) 2. Просим модель оценить, верно ли решение 3. Если решение неверное, модель должна указать ошибку 4. Если решение верное, модель должна это подтвердить ## Применение Эта задача лучше соответствует сценариям использования моделей ИИ, когда пользователи предлагают свои решения и ожидают конструктивной обратной связи. Мы используем задачи из бенчмарка MATH, предоставляя модели: - Правильные решения из набора данных - Искусственно созданные неправильные решения ## Предварительные результаты Первоначальные тесты с Claude 3 Opus и GPT-4 показывают, что модели: - Иногда принимают неправильные решения за правильные - Иногда отвергают правильные решения - Выявляют типичные ошибки в неверных решениях - Могут предложить улучшения к решениям ## Обоснование и интерпретация Способность различать правильные и неправильные решения соответствует более глубокому пониманию предметной области, в отличие от поверхностного запоминания или подражания. Данный бенчмарк также позволяет: 1. Проверить, достаточно ли хорошо модель "понимает" решение, чтобы находить в нем ошибки 2. Оценить, может ли модель обнаруживать ошибки в решениях разной сложности 3. Исследовать, не проявляет ли модель предвзятость в сторону принятия решений (подтверждения), особенно если они выглядят убедительно, но содержат ошибки • Self-reported

5.1%

LiveCodeBench

Генерация кода AI ## Задача: Улучшение гипотезы кода На основе нескольких фрагментов кода и потенциальной ошибки, разработайте рабочее решение. ## Метод: Исправление через анализ 1. **Первичный анализ**: Внимательно изучите представленные фрагменты кода и сообщение об ошибке. 2. **Диагностика проблемы**: Определите, где именно возникает ошибка и почему. 3. **Рефакторинг решения**: Разработайте улучшенную версию кода, которая: - Исправляет обнаруженные проблемы - Соответствует лучшим практикам программирования - Сохраняет изначальное намерение кода 4. **Верификация решения**: Проверьте исправленный код мысленно, убедитесь, что он будет работать в предполагаемых условиях. ## Ограничения - Исправьте только проблемную часть, сохраняя общую структуру и намерение оригинального кода - Придерживайтесь языка программирования исходного кода - Если требуется дополнительный контекст, укажите это в виде комментария • Self-reported

33.7%

MRCR v2

Long context 128k среднее. 8 игл. • Self-reported

16.6%

SimpleQA

Фактическая точность AI: Несмотря на их широкие возможности, LLM страдают от "галлюцинаций" - они иногда генерируют утверждения, которые правдоподобны, но фактически неверны. Это свойство обычно оценивают путём проверки ответов на фактические вопросы. Однако существующие бенчмарки часто имеют ограничения: ответы могут быть извлечены из обучающих данных, вопросы могут быть решены с помощью поиска, или они могут быть чрезмерно специализированными, требуя экспертных знаний. Оценка моделей на общих знаниях, которые должен знать человек с хорошим образованием (но не специалист), может дать важную информацию о способности модели надежно отвечать на фактические вопросы. Например, мы можем спросить модель о геологических эпохах, гражданской войне в США или основных положениях теории эволюции. • Self-reported

10.7%

Vibe-Eval

Reka AI: Reka • Self-reported

51.3%

Лицензия и метаданные

Лицензия

creative_commons_attribution_4_0_license

Дата анонса

17 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Gemini 2.5 Flash-Lite

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 2.5 Pro Preview 06-05

Gemini 1.5 Flash

Gemini 2.0 Flash

Gemini 2.5 Flash

Gemini 2.0 Flash-Lite

Gemini 1.5 Pro

Gemini 2.5 Pro

Gemini 1.5 Flash 8B