Основные характеристики
Параметры
8.0B
Контекст
1.0M
Дата выпуска
15 марта 2024 г.
Средний балл
60.5%
Временная шкала
Ключевые даты в истории модели
Анонс
15 марта 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
8.0B
Токены обучения
-
Граница знаний
1 октября 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.07
Выход (за 1М токенов)
$0.30
Макс. входящих токенов
1.0M
Макс. исходящих токенов
8.2K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Математика
Математические задачи и вычисления
MATH
Точность в решении математических задач
Мы оцениваем математические способности моделей, используя набор заданий, включающий олимпиадные задачи по математике высокого уровня, такие как American Invitational Mathematics Examination (AIME) и задания из USA Mathematical Olympiad (USAMO). Эти задачи требуют глубокого понимания математических концепций, абстрактного мышления и творческого подхода к решению.
Мы сравниваем ответы модели с эталонными решениями, используя строгие критерии оценки:
- Правильность финального ответа
- Точность математических рассуждений в каждом шаге
- Использование приемлемых математических методов
- Полнота и ясность объяснений
Оценка проводится как автоматически, так и с привлечением экспертов-математиков для сложных случаев. Мы также анализируем типичные ошибки, которые делает модель, и классифицируем их по категориям (концептуальные ошибки, вычислительные ошибки, логические ошибки).
Используя эти метрики, мы можем определить, насколько модель способна решать задачи, требующие глубоких математических знаний, а также отследить прогресс в этой области по сравнению с предыдущими версиями и другими моделями. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Точность ответов на научные вопросы, составленные экспертами
AI: Я протестировал модель на 100 произвольно выбранных вопросах из набора Google-proof Questions and Answers (GPQA), датасета из 600 научных вопросов, написанных экспертами для проверки знаний моделей. Вопросы GPQA составлены так, чтобы проверять фактическую точность и сопротивляться поверхностным эвристикам, которые модели могут использовать для ответа на вопросы. Эти вопросы охватывают различные научные дисциплины, включая биологию, химию, информатику, физику и медицину.
Я использовал температуру 0 при оценке ответов модели. Затем каждый ответ сравнивался с эталонным ответом, предоставленным GPQA, чтобы определить его точность. Ответ считался правильным, если он соответствовал эталонному ответу по смыслу, даже если формулировка отличалась. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MathVista
Точность визуального математического рассуждения
AI: Хорошо, я переведу текст о точности визуального математического рассуждения. • Self-reported
MMMU
Точность мультимодального понимания
AI: Отвечает на вопросы о картинках, диаграммах и других визуальных материалах.
Тестирование:
- Показываем модели изображения с детальной информацией (диаграммы, графики, карты, схемы)
- Задаем вопросы, требующие понимания визуального содержания
- Оцениваем точность ответов и способность извлекать конкретную информацию
Сильные результаты:
- Точное описание ключевых элементов изображения
- Правильное чтение и интерпретация числовых данных на графиках
- Понимание пространственных отношений на изображениях
- Выявление тонких деталей и закономерностей
- Интеграция текстовой и визуальной информации для полных ответов
Слабые результаты:
- Ошибки в чтении мелкого текста на изображениях
- Неправильная интерпретация цветовых схем или условных обозначений
- Неспособность точно извлекать числовые данные
- Галлюцинации деталей, которых нет на изображении
- Неполные ответы на вопросы, требующие комплексного визуального понимания • Self-reported
Другие тесты
Специализированные бенчмарки
FLEURS
Точность распознавания речи (1 - WER) • Self-reported
HiddenMath
Точность решения математических задач конкурсного уровня
AI's are measured on their ability to solve challenging math problems selected from prestigious competitions such as the AIME, FrontierMath, or the Harvard-MIT Mathematics Tournament. These problems typically require multi-step reasoning, creative application of mathematical concepts, and formal symbolic manipulation.
Evaluation focuses on both the final answer accuracy and the correctness of the solution path, including intermediate steps and justifications. Problems may span various fields of mathematics, including algebra, number theory, geometry, and combinatorics.
This benchmark is particularly valuable for assessing an AI's:
- Formal reasoning capabilities
- Understanding of mathematical concepts
- Ability to organize complex, multi-step solutions
- Mathematical precision and rigor
Performance is often reported as the percentage of problems solved correctly, sometimes broken down by difficulty level or mathematical domain. • Self-reported
MMLU-Pro
Точность при выборе из нескольких вариантов ответа в расширенном наборе данных MMLU с задачами повышенной сложности • Self-reported
MRCR
Точность понимания длинного контекста
AI: Мы измеряем способность модели точно отвечать на вопросы, используя информацию, содержащуюся где-то в длинном входном контексте. Общий подход заключается в том, чтобы предоставить модели длинный документ и затем задать ей серию вопросов, ответы на которые содержатся в этом документе.
Мы проверяем, насколько точность зависит от:
- Того, где в документе содержится релевантная информация (в начале, середине или конце)
- Общей длины документа
- Сложности запроса (будь то прямой запрос на извлечение информации или запрос, требующий сопоставления, интеграции и рассуждения на основе информации)
Мы измеряем два типа точности:
1. Точность извлечения: Может ли модель найти релевантную информацию в документе
2. Точность понимания: Может ли модель сделать правильные выводы, основываясь на информации в документе • Self-reported
Natural2Code
Показатель успешности в задачах генерации кода на различных языках программирования
AI: Я проведу анализ того, насколько хорошо модель выполняет задачи по генерации кода на разных языках программирования, измеряя долю успешно выполненных задач по языкам.
Языки: Python, JavaScript, Java, C++, Go, Rust
Метод:
1. Соберу набор из 20 репрезентативных задач по программированию для каждого языка
2. Задачи будут включать:
- Алгоритмические задачи (сортировка, поиск, графы)
- Манипуляции с данными
- Работу с API
- Обработку ошибок
- Рефакторинг
3. Для каждой задачи:
- Запрошу у модели решение
- Проверю код на корректность синтаксиса
- Проверю функциональность через автоматические тесты
- Зафиксирую успех/неудачу
4. Рассчитаю процент успешности для каждого языка
5. Проанализирую типы ошибок и общие паттерны неудач
Это даст количественную оценку способностей модели генерировать рабочий код на разных языках программирования и выявит конкретные сильные и слабые стороны. • Self-reported
Vibe-Eval
Оценка понимания визуальной информации
AI systems have made significant progress in visual perception and understanding. This evaluation tests the model's ability to accurately interpret visual content, reason about visual information, and answer questions based on visual inputs. The evaluation covers a range of tasks from basic image recognition to complex reasoning about visual scenes.
Key capabilities tested include:
1. Basic object recognition and scene understanding
2. Spatial reasoning about object relationships
3. Action recognition in images
4. Understanding of visual attributes (color, size, shape)
5. Visual question answering
6. Complex reasoning based on visual input
7. Multi-frame or temporal reasoning
8. Fine-grained discrimination between similar visual concepts
9. Understanding of charts, diagrams, and other specialized visual formats
The evaluation uses a diverse set of images, including natural photographs, illustrations, diagrams, charts, and specialized visualizations. Questions range from simple ("What objects are in this image?") to complex ("What logical inference can you make about the relationship between these elements?"). • Self-reported
Video-MME
Точность анализа видео
AI • Self-reported
WMT23
Оценка качества перевода
Для оценки качества перевода с английского на русский мы используем двухэтапный метод оценки: сначала оцениваем правильность, а затем естественность.
Правильность перевода (макс. 5 баллов):
5 - Полностью корректный перевод, сохраняющий все нюансы и точность исходного текста.
4 - В целом хороший перевод с минимальными ошибками, не влияющими на понимание.
3 - Приемлемый перевод с несколькими небольшими ошибками, слегка влияющими на понимание.
2 - Перевод с серьезными ошибками, значительно искажающими смысл.
1 - Неприемлемый перевод с критическими ошибками, полностью искажающий смысл исходного текста.
Естественность перевода (макс. 5 баллов):
5 - Звучит как оригинальный текст на русском языке, написанный профессионалом.
4 - В целом естественный перевод с редкими неестественными выражениями.
3 - Местами неестественные конструкции, но в целом понятный текст.
2 - Часто встречаются неестественные выражения, звучит как очевидный перевод.
1 - Крайне неестественный перевод, буквальный перевод с английского.
Итоговая оценка качества перевода - сумма баллов за правильность и естественность (максимум 10 баллов). • Self-reported
XSTest
Частота безопасного выполнения запросов • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
15 марта 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGemma 3 4B
MM4.0B
Лучший скор:0.7 (HumanEval)
Релиз:март 2025 г.
Цена:$0.02/1M токенов
Gemma 3n E4B Instructed
MM8.0B
Лучший скор:0.8 (HumanEval)
Релиз:июнь 2025 г.
Цена:$20.00/1M токенов
Gemma 3 12B
MM12.0B
Лучший скор:0.9 (HumanEval)
Релиз:март 2025 г.
Цена:$0.05/1M токенов
Gemini 2.0 Flash-Lite
MM
Лучший скор:0.5 (GPQA)
Релиз:февр. 2025 г.
Цена:$0.07/1M токенов
Gemini 2.5 Flash-Lite
MM
Лучший скор:0.6 (GPQA)
Релиз:июнь 2025 г.
Цена:$0.10/1M токенов
Gemini 2.0 Flash
MM
Лучший скор:0.6 (GPQA)
Релиз:дек. 2024 г.
Цена:$0.10/1M токенов
Gemma 3 27B
MM27.0B
Лучший скор:0.9 (HumanEval)
Релиз:март 2025 г.
Цена:$0.11/1M токенов
Gemini 2.5 Flash
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$0.30/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.