xAI logo

Grok-2 mini

Мультимодальная
xAI

Grok-2 mini — это более компактная и быстрая версия Grok-2, которая обеспечивает баланс между скоростью и качеством ответов. Несмотря на меньший размер по сравнению со старшей моделью, она сохраняет высокие возможности в различных задачах, включая логические рассуждения, программирование и диалоговые взаимодействия.

Основные характеристики

Параметры
-
Контекст
-
Дата выпуска
13 августа 2024 г.
Средний балл
74.0%

Временная шкала

Ключевые даты в истории модели
Анонс
13 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
точностьSelf-reported
86.2%

Программирование

Тесты на навыки программирования
HumanEval
pass@1 Метод определения вероятности правильного ответа модели с первой попытки при n попытках. Эта метрика учитывает среднюю вероятность, с которой модель выдаст правильный ответ при однократном использовании, при условии, что у нас есть n ответов модели на один и тот же вопрос. Формула для pass@1 основана на принципе "большинства голосов": правильный ответ должен набрать больше "голосов" (вероятности), чем любой неправильный ответ. Вероятность этого события может быть оценена с помощью моделирования выборки с возвращением. В случае двух возможных ответов, pass@1 показывает вероятность того, что модель выберет правильный ответ в однократном запуске, рассчитанную на основе частоты правильных ответов в n прогонах.Self-reported
85.7%

Математика

Математические задачи и вычисления
MATH
maj@1 AI: Возвращаем прогноз, на который указывает большинство из 1 вывода. Для моделей, способных к мышлению с помощью массивов вариантов, иногда полезно использовать агрегирование. В случае maj@1 мы просто берем один вывод и предсказываем то, что он говорит. Это полезно как базовый метод для сравнения с другими методами агрегирования.Self-reported
73.0%

Рассуждения

Логические рассуждения и анализ
GPQA
точностьSelf-reported
51.0%

Мультимодальность

Работа с изображениями и визуальными данными
DocVQA
точностьSelf-reported
93.2%
MathVista
точностьSelf-reported
68.1%
MMMU
точностьSelf-reported
63.2%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
точностьSelf-reported
72.0%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
13 августа 2024 г.
Последнее обновление
19 июля 2025 г.