xAI logo

Grok-1.5

xAI

Продвинутая языковая модель с улучшенными возможностями рассуждения, особенно превосходящая в задачах программирования и математики. Обладает контекстным окном в 128K токенов и расширенными способностями решения проблем по сравнению с предшественником.

Основные характеристики

Параметры
-
Контекст
-
Дата выпуска
28 марта 2024 г.
Средний балл
63.9%

Временная шкала

Ключевые даты в истории модели
Анонс
28 марта 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
5-shotSelf-reported
81.3%

Программирование

Тесты на навыки программирования
HumanEval
Вопрос: Вычислите первообразную функции \(\frac{1}{2x \cdot \sqrt{x^2 + 1}}\). Чтобы вычислить первообразную функции \(\frac{1}{2x \cdot \sqrt{x^2 + 1}}\), я применю метод подстановки. Сначала я обозначу \(x^2 + 1 = u\), откуда \(x^2 = u - 1\) и \(2x \, dx = du\). Тогда \(dx = \frac{du}{2x}\). Подставляя это в исходный интеграл: \(\int \frac{1}{2x \cdot \sqrt{x^2 + 1}} \, dx = \int \frac{1}{2x \cdot \sqrt{u}} \cdot \frac{du}{2x} = \int \frac{1}{4x^2 \cdot \sqrt{u}} \, du\) Поскольку \(x^2 = u - 1\), получаем: \(\int \frac{1}{4(u-1) \cdot \sqrt{u}} \, du\) Это интеграл вида \(\int \frac{1}{(u-1) \cdot \sqrt{u}} \, du\), который можно решить дальнейшей подстановкой или используя интегрирование по частям. Подождите, я допустил ошибку. Давайте попробуем другой подход. Обозначим \(\sqrt{x^2 + 1} = t\), тогда \(x^2 + 1 = t^2\) и \(x^2 = t^2 - 1\). Дифференцируя, получаем \(2x \, dx = 2t \, dt\), откуда \(dx = \frac{t \, dt}{x}\). Также, из \(x^2 = t^2 - 1\) следует, что \(x = \sqrt{t^2 - 1}\) (поскольку \(x > 0\) в контексте задачи). Теперь подставим в интеграл: \(\int \frac{1}{2x \cdot \sqrt{x^2 + 1}} \, dx = \int \frac{1}{2x \cdot t} \cdot \frac{t \, dt}{x} = \int \frac{1}{2x^2} \, dt\) Используя \(x^2 = t^2 - 1\), получаем: \(\int \frac{1}{2(t^2 - 1)} \, dt = \frac{1}{2} \int \frac{1}{t^2 - 1} \, dt\) Интеграл \(\int \frac{1}{t^2 - 1} \, dt\) можно вычислить с помощью метода частичных дробей: \(\frac{Self-reported
74.1%

Математика

Математические задачи и вычисления
GSM8k
8-shotSelf-reported
90.0%
MATH
4-shotSelf-reported
50.6%

Рассуждения

Логические рассуждения и анализ
GPQA
0-shot Этот метод означает, что модель выполняет задачу без каких-либо примеров или указаний по выполнению задачи. Это самый чистый и прямой тест способностей модели, так как единственная информация, которую получает модель — это задание, которое необходимо выполнить. Метод 0-shot особенно полезен для оценки врожденных возможностей модели, но может быть сложнее для задач, которые требуют определенного формата ответа или следования конкретным инструкциям, которые не были явно указаны.Self-reported
35.9%

Мультимодальность

Работа с изображениями и визуальными данными
DocVQA
Нулевой шот В этом режиме мы исследуем способность модели правильно отвечать на вопросы без примеров. Мы включаем заданный вопрос с простой инструкцией дать ответ. Это позволяет нам лучше понять встроенные возможности модели отвечать на вопросы из заданной области. Примеры: - Определите высоту треугольника со сторонами 5, 5 и 6. - Найдите производную f(x) = x^3 + 2x^2 - 5x + 7. - Решите уравнение 3x + 5 = 2x - 7.Self-reported
85.6%
MathVista
0-shot В модели тестирования 0-shot модель должна решить задачу с нуля, полагаясь только на свое предварительное обучение, без каких-либо конкретных примеров, демонстрирующих решение аналогичных проблем. Такое тестирование позволяет нам оценить изначальную способность модели решать задачи без специальных инструкций. Это, как правило, самый сложный для модели способ тестирования, поскольку ей не предоставляется никаких дополнительных подсказок или контекста для решения проблемы. В контексте наших испытаний 0-shot тестирование раскрывает базовые возможности модели в области математических рассуждений и ее способность переносить предварительно полученные знания на новые задачи без дополнительного обучения.Self-reported
52.8%
MMMU
Сравнительный анализ моделей искусственного интеллекта, созданных компанией Anthropic, с упором на производительность модели Claude 3 Opus при решении алгебраических задач. Я сравнил Claude 3 Opus с Claude 2 и Claude 3 Sonnet, чтобы оценить их относительную производительность при решении математических задач и понять, насколько заметным было улучшение от Claude 2 до Claude 3 Opus. Используя одинаковые алгебраические задачи и одинаковую инструкцию ("Solve step-by-step"), я отправил запросы всем трем моделям. Результаты показали, что Claude 3 Opus значительно превосходит как Claude 2, так и Claude 3 Sonnet по точности решения сложных алгебраических задач. Основные наблюдения: - Claude 2 допускал ошибки в большинстве тестовых задач и редко находил верные решения - Claude 3 Sonnet показал некоторые улучшения по сравнению с Claude 2, но все еще совершал ошибки в сложных задачах - Claude 3 Opus правильно решил практически все задачи с четким и понятным пошаговым объяснением Эти результаты подтверждают заявления Anthropic о существенном улучшении математических способностей в новой линейке моделей Claude 3, особенно в флагманской модели Opus.Self-reported
53.6%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
0-shot Подход «с нулевым обучением» означает, что модель не получала никаких примеров выполнения конкретной задачи перед её решением. Вместо этого ей дают только инструкции с описанием задачи, которую нужно выполнить. Например, модель могла бы получить инструкцию «Оцени, является ли следующее утверждение истинным или ложным» без каких-либо примеров истинных или ложных утверждений. Подход с нулевым обучением особенно важен при оценке способностей языковых моделей, поскольку он измеряет их настоящее понимание и обобщение, а не просто способность следовать шаблонам из предоставленных примеров. Это также делает оценку более реалистичной, так как в большинстве реальных сценариев использования модели не получают примеры заранее. Когда языковые модели, такие как GPT-4, оцениваются в режиме с нулевым обучением, это показывает, насколько хорошо они могут применять свои общие знания и языковое понимание к новым задачам без дополнительного обучения или тонкой настройки.Self-reported
51.0%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
28 марта 2024 г.
Последнее обновление
19 июля 2025 г.