xAI logo

Grok-2

Мультимодальная
xAI

Grok-2 — это передовая языковая модель с самыми современными возможностями рассуждения, обладающая продвинутыми способностями в чате, программировании и логических рассуждениях. Она демонстрирует превосходную производительность в визуальных математических рассуждениях, ответах на вопросы по документам и превосходит другие модели в различных академических тестах, включая логические рассуждения, понимание прочитанного, математику и естественные науки.

Основные характеристики

Параметры
-
Контекст
128.0K
Дата выпуска
13 августа 2024 г.
Средний балл
76.5%

Временная шкала

Ключевые даты в истории модели
Анонс
13 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$2.00
Выход (за 1М токенов)
$10.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
8.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
точностьSelf-reported
87.5%

Программирование

Тесты на навыки программирования
HumanEval
Pass@1 - это метрика для оценки алгоритмов, используемая для измерения эффективности крупномасштабных языковых моделей (LLM) в решении задач. Метрика представляет собой вероятность правильного решения задачи с первой попытки. Для расчета Pass@1 модели предлагается решить набор задач. Для каждой задачи модель генерирует n различных решений. Если хотя бы одно из n решений верно, считается, что модель способна решить задачу. Pass@1 оценивает вероятность того, что первое предложенное решение будет правильным, используя статистическую формулу для экстраполяции из большего набора решений. Pass@1 является ценной метрикой, поскольку она: 1. Позволяет точно оценить способность модели решать задачи с первой попытки 2. Обеспечивает более стабильную оценку производительности по сравнению с прямым тестированием одного решения 3. Помогает сравнивать разные модели по их эффективности решения задач Эта метрика часто используется в исследованиях по искусственному интеллекту для оценки производительности LLM в таких областях, как программирование, математическое рассуждение и решение сложных задач.Self-reported
88.4%

Математика

Математические задачи и вычисления
MATH
maj@1 AI: Я генерирую ответы с 1 экземпляром модели. Затем я повторяю процесс генерации 2 раза, получая всего 3 ответа. Итоговый ответ определяется путем выбора наиболее часто встречающегося ответа (мажоритарное голосование). В случае равенства голосов выбирается один из ответов случайным образом.Self-reported
76.1%

Рассуждения

Логические рассуждения и анализ
GPQA
точностьSelf-reported
56.0%

Мультимодальность

Работа с изображениями и визуальными данными
DocVQA
ТочностьSelf-reported
93.6%
MathVista
точностьSelf-reported
69.0%
MMMU
точностьSelf-reported
66.1%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
ТочностьSelf-reported
75.5%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
13 августа 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.