Gemini 1.5 Flash 8B

Name: Gemini 1.5 Flash 8B
Rating: 0.6 (13 reviews)
Author: Google

Мультимодальная

Google

Мультимодальная модель, способная обрабатывать аудио, изображения, видео и текст с высокой эффективностью. Поддерживает режим JSON, вызовы функций, выполнение кода и системные инструкции. Оптимизирована для быстрого инференса с 8 миллиардами параметров.

Основные характеристики

Параметры

8.0B

Контекст

1.0M

Дата выпуска

15 марта 2024 г.

Средний балл

60.5%

Временная шкала

Ключевые даты в истории модели

Анонс

15 марта 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

8.0B

Токены обучения

Граница знаний

1 октября 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.07

Выход (за 1М токенов)

$0.30

Макс. входящих токенов

1.0M

Макс. исходящих токенов

8.2K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Математика

Математические задачи и вычисления

MATH

Точность в решении математических задач Мы оцениваем математические способности моделей, используя набор заданий, включающий олимпиадные задачи по математике высокого уровня, такие как American Invitational Mathematics Examination (AIME) и задания из USA Mathematical Olympiad (USAMO). Эти задачи требуют глубокого понимания математических концепций, абстрактного мышления и творческого подхода к решению. Мы сравниваем ответы модели с эталонными решениями, используя строгие критерии оценки: - Правильность финального ответа - Точность математических рассуждений в каждом шаге - Использование приемлемых математических методов - Полнота и ясность объяснений Оценка проводится как автоматически, так и с привлечением экспертов-математиков для сложных случаев. Мы также анализируем типичные ошибки, которые делает модель, и классифицируем их по категориям (концептуальные ошибки, вычислительные ошибки, логические ошибки). Используя эти метрики, мы можем определить, насколько модель способна решать задачи, требующие глубоких математических знаний, а также отследить прогресс в этой области по сравнению с предыдущими версиями и другими моделями. • Self-reported

58.7%

Рассуждения

Логические рассуждения и анализ

GPQA

Точность ответов на научные вопросы, составленные экспертами AI: Я протестировал модель на 100 произвольно выбранных вопросах из набора Google-proof Questions and Answers (GPQA), датасета из 600 научных вопросов, написанных экспертами для проверки знаний моделей. Вопросы GPQA составлены так, чтобы проверять фактическую точность и сопротивляться поверхностным эвристикам, которые модели могут использовать для ответа на вопросы. Эти вопросы охватывают различные научные дисциплины, включая биологию, химию, информатику, физику и медицину. Я использовал температуру 0 при оценке ответов модели. Затем каждый ответ сравнивался с эталонным ответом, предоставленным GPQA, чтобы определить его точность. Ответ считался правильным, если он соответствовал эталонному ответу по смыслу, даже если формулировка отличалась. • Self-reported

38.4%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Точность визуального математического рассуждения AI: Хорошо, я переведу текст о точности визуального математического рассуждения. • Self-reported

54.7%

MMMU

Точность мультимодального понимания AI: Отвечает на вопросы о картинках, диаграммах и других визуальных материалах. Тестирование: - Показываем модели изображения с детальной информацией (диаграммы, графики, карты, схемы) - Задаем вопросы, требующие понимания визуального содержания - Оцениваем точность ответов и способность извлекать конкретную информацию Сильные результаты: - Точное описание ключевых элементов изображения - Правильное чтение и интерпретация числовых данных на графиках - Понимание пространственных отношений на изображениях - Выявление тонких деталей и закономерностей - Интеграция текстовой и визуальной информации для полных ответов Слабые результаты: - Ошибки в чтении мелкого текста на изображениях - Неправильная интерпретация цветовых схем или условных обозначений - Неспособность точно извлекать числовые данные - Галлюцинации деталей, которых нет на изображении - Неполные ответы на вопросы, требующие комплексного визуального понимания • Self-reported

53.7%

Другие тесты

Специализированные бенчмарки

FLEURS

Точность распознавания речи (1 - WER) • Self-reported

86.4%

HiddenMath

Точность решения математических задач конкурсного уровня AI's are measured on their ability to solve challenging math problems selected from prestigious competitions such as the AIME, FrontierMath, or the Harvard-MIT Mathematics Tournament. These problems typically require multi-step reasoning, creative application of mathematical concepts, and formal symbolic manipulation. Evaluation focuses on both the final answer accuracy and the correctness of the solution path, including intermediate steps and justifications. Problems may span various fields of mathematics, including algebra, number theory, geometry, and combinatorics. This benchmark is particularly valuable for assessing an AI's: - Formal reasoning capabilities - Understanding of mathematical concepts - Ability to organize complex, multi-step solutions - Mathematical precision and rigor Performance is often reported as the percentage of problems solved correctly, sometimes broken down by difficulty level or mathematical domain. • Self-reported

32.8%

MMLU-Pro

Точность при выборе из нескольких вариантов ответа в расширенном наборе данных MMLU с задачами повышенной сложности • Self-reported

58.7%

MRCR

Точность понимания длинного контекста AI: Мы измеряем способность модели точно отвечать на вопросы, используя информацию, содержащуюся где-то в длинном входном контексте. Общий подход заключается в том, чтобы предоставить модели длинный документ и затем задать ей серию вопросов, ответы на которые содержатся в этом документе. Мы проверяем, насколько точность зависит от: - Того, где в документе содержится релевантная информация (в начале, середине или конце) - Общей длины документа - Сложности запроса (будь то прямой запрос на извлечение информации или запрос, требующий сопоставления, интеграции и рассуждения на основе информации) Мы измеряем два типа точности: 1. Точность извлечения: Может ли модель найти релевантную информацию в документе 2. Точность понимания: Может ли модель сделать правильные выводы, основываясь на информации в документе • Self-reported

54.7%

Natural2Code

Показатель успешности в задачах генерации кода на различных языках программирования AI: Я проведу анализ того, насколько хорошо модель выполняет задачи по генерации кода на разных языках программирования, измеряя долю успешно выполненных задач по языкам. Языки: Python, JavaScript, Java, C++, Go, Rust Метод: 1. Соберу набор из 20 репрезентативных задач по программированию для каждого языка 2. Задачи будут включать: - Алгоритмические задачи (сортировка, поиск, графы) - Манипуляции с данными - Работу с API - Обработку ошибок - Рефакторинг 3. Для каждой задачи: - Запрошу у модели решение - Проверю код на корректность синтаксиса - Проверю функциональность через автоматические тесты - Зафиксирую успех/неудачу 4. Рассчитаю процент успешности для каждого языка 5. Проанализирую типы ошибок и общие паттерны неудач Это даст количественную оценку способностей модели генерировать рабочий код на разных языках программирования и выявит конкретные сильные и слабые стороны. • Self-reported

75.5%

Vibe-Eval

Оценка понимания визуальной информации AI systems have made significant progress in visual perception and understanding. This evaluation tests the model's ability to accurately interpret visual content, reason about visual information, and answer questions based on visual inputs. The evaluation covers a range of tasks from basic image recognition to complex reasoning about visual scenes. Key capabilities tested include: 1. Basic object recognition and scene understanding 2. Spatial reasoning about object relationships 3. Action recognition in images 4. Understanding of visual attributes (color, size, shape) 5. Visual question answering 6. Complex reasoning based on visual input 7. Multi-frame or temporal reasoning 8. Fine-grained discrimination between similar visual concepts 9. Understanding of charts, diagrams, and other specialized visual formats The evaluation uses a diverse set of images, including natural photographs, illustrations, diagrams, charts, and specialized visualizations. Questions range from simple ("What objects are in this image?") to complex ("What logical inference can you make about the relationship between these elements?"). • Self-reported

40.9%

Video-MME

Точность анализа видео AI • Self-reported

66.2%

WMT23

Оценка качества перевода Для оценки качества перевода с английского на русский мы используем двухэтапный метод оценки: сначала оцениваем правильность, а затем естественность. Правильность перевода (макс. 5 баллов): 5 - Полностью корректный перевод, сохраняющий все нюансы и точность исходного текста. 4 - В целом хороший перевод с минимальными ошибками, не влияющими на понимание. 3 - Приемлемый перевод с несколькими небольшими ошибками, слегка влияющими на понимание. 2 - Перевод с серьезными ошибками, значительно искажающими смысл. 1 - Неприемлемый перевод с критическими ошибками, полностью искажающий смысл исходного текста. Естественность перевода (макс. 5 баллов): 5 - Звучит как оригинальный текст на русском языке, написанный профессионалом. 4 - В целом естественный перевод с редкими неестественными выражениями. 3 - Местами неестественные конструкции, но в целом понятный текст. 2 - Часто встречаются неестественные выражения, звучит как очевидный перевод. 1 - Крайне неестественный перевод, буквальный перевод с английского. Итоговая оценка качества перевода - сумма баллов за правильность и естественность (максимум 10 баллов). • Self-reported

72.6%

XSTest

Частота безопасного выполнения запросов • Self-reported

92.6%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

15 марта 2024 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Gemini 1.5 Flash 8B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E2B Instructed

Gemma 3n E2B

MedGemma 4B IT

Gemma 3 4B

Gemma 3n E4B Instructed LiteRT Preview

Gemma 3n E4B Instructed

Gemma 3n E4B