Grok-2 mini
МультимодальнаяGrok-2 mini — это более компактная и быстрая версия Grok-2, которая обеспечивает баланс между скоростью и качеством ответов. Несмотря на меньший размер по сравнению со старшей моделью, она сохраняет высокие возможности в различных задачах, включая логические рассуждения, программирование и диалоговые взаимодействия.
Основные характеристики
Параметры
-
Контекст
-
Дата выпуска
13 августа 2024 г.
Средний балл
74.0%
Временная шкала
Ключевые даты в истории модели
Анонс
13 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
точность • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
pass@1
Метод определения вероятности правильного ответа модели с первой попытки при n попытках. Эта метрика учитывает среднюю вероятность, с которой модель выдаст правильный ответ при однократном использовании, при условии, что у нас есть n ответов модели на один и тот же вопрос.
Формула для pass@1 основана на принципе "большинства голосов": правильный ответ должен набрать больше "голосов" (вероятности), чем любой неправильный ответ. Вероятность этого события может быть оценена с помощью моделирования выборки с возвращением.
В случае двух возможных ответов, pass@1 показывает вероятность того, что модель выберет правильный ответ в однократном запуске, рассчитанную на основе частоты правильных ответов в n прогонах. • Self-reported
Математика
Математические задачи и вычисления
MATH
maj@1
AI: Возвращаем прогноз, на который указывает большинство из 1 вывода.
Для моделей, способных к мышлению с помощью массивов вариантов, иногда полезно использовать агрегирование.
В случае maj@1 мы просто берем один вывод и предсказываем то, что он говорит. Это полезно как базовый метод для сравнения с другими методами агрегирования. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
точность • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
DocVQA
точность • Self-reported
MathVista
точность • Self-reported
MMMU
точность • Self-reported
Другие тесты
Специализированные бенчмарки
MMLU-Pro
точность • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
13 августа 2024 г.
Последнее обновление
19 июля 2025 г.