Grok-2

Name: Grok-2
Author: xAI

Мультимодальная

xAI

Grok-2 — это передовая языковая модель с самыми современными возможностями рассуждения, обладающая продвинутыми способностями в чате, программировании и логических рассуждениях. Она демонстрирует превосходную производительность в визуальных математических рассуждениях, ответах на вопросы по документам и превосходит другие модели в различных академических тестах, включая логические рассуждения, понимание прочитанного, математику и естественные науки.

Основные характеристики

Параметры

Контекст

128.0K

Дата выпуска

13 августа 2024 г.

Средний балл

76.5%

Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

13 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

23 июня 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.00

Выход (за 1М токенов)

$10.00

Макс. входящих токенов

128.0K

Макс. исходящих токенов

8.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

точность • Self-reported

87.5%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 - это метрика для оценки алгоритмов, используемая для измерения эффективности крупномасштабных языковых моделей (LLM) в решении задач. Метрика представляет собой вероятность правильного решения задачи с первой попытки. Для расчета Pass@1 модели предлагается решить набор задач. Для каждой задачи модель генерирует n различных решений. Если хотя бы одно из n решений верно, считается, что модель способна решить задачу. Pass@1 оценивает вероятность того, что первое предложенное решение будет правильным, используя статистическую формулу для экстраполяции из большего набора решений. Pass@1 является ценной метрикой, поскольку она: 1. Позволяет точно оценить способность модели решать задачи с первой попытки 2. Обеспечивает более стабильную оценку производительности по сравнению с прямым тестированием одного решения 3. Помогает сравнивать разные модели по их эффективности решения задач Эта метрика часто используется в исследованиях по искусственному интеллекту для оценки производительности LLM в таких областях, как программирование, математическое рассуждение и решение сложных задач. • Self-reported

88.4%

Математика

Математические задачи и вычисления

MATH

maj@1 AI: Я генерирую ответы с 1 экземпляром модели. Затем я повторяю процесс генерации 2 раза, получая всего 3 ответа. Итоговый ответ определяется путем выбора наиболее часто встречающегося ответа (мажоритарное голосование). В случае равенства голосов выбирается один из ответов случайным образом. • Self-reported

76.1%

Рассуждения

Логические рассуждения и анализ

GPQA

точность • Self-reported

56.0%

Мультимодальность

Работа с изображениями и визуальными данными

DocVQA

Точность • Self-reported

93.6%

MathVista

точность • Self-reported

69.0%

MMMU

точность • Self-reported

66.1%

Другие тесты

Специализированные бенчмарки

MMLU-Pro

Точность • Self-reported

75.5%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

13 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Grok-2

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Grok-2 mini

Grok-3

Grok-3 Mini

Grok-1.5V

Grok 4.20

Grok-4.1 Fast Non-Reasoning

Grok-4.1 Fast Reasoning

Grok-4 Fast Non-Reasoning