Grok-1.5

xAI

Продвинутая языковая модель с улучшенными возможностями рассуждения, особенно превосходящая в задачах программирования и математики. Обладает контекстным окном в 128K токенов и расширенными способностями решения проблем по сравнению с предшественником.

Основные характеристики

Параметры

Контекст

Дата выпуска

28 марта 2024 г.

Средний балл

63.9%

API документация Репозиторий Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

28 марта 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-shot • Self-reported

81.3%

Программирование

Тесты на навыки программирования

HumanEval

Вопрос: Вычислите первообразную функции \(\frac{1}{2x \cdot \sqrt{x^2 + 1}}\). Чтобы вычислить первообразную функции \(\frac{1}{2x \cdot \sqrt{x^2 + 1}}\), я применю метод подстановки. Сначала я обозначу \(x^2 + 1 = u\), откуда \(x^2 = u - 1\) и \(2x \, dx = du\). Тогда \(dx = \frac{du}{2x}\). Подставляя это в исходный интеграл: \(\int \frac{1}{2x \cdot \sqrt{x^2 + 1}} \, dx = \int \frac{1}{2x \cdot \sqrt{u}} \cdot \frac{du}{2x} = \int \frac{1}{4x^2 \cdot \sqrt{u}} \, du\) Поскольку \(x^2 = u - 1\), получаем: \(\int \frac{1}{4(u-1) \cdot \sqrt{u}} \, du\) Это интеграл вида \(\int \frac{1}{(u-1) \cdot \sqrt{u}} \, du\), который можно решить дальнейшей подстановкой или используя интегрирование по частям. Подождите, я допустил ошибку. Давайте попробуем другой подход. Обозначим \(\sqrt{x^2 + 1} = t\), тогда \(x^2 + 1 = t^2\) и \(x^2 = t^2 - 1\). Дифференцируя, получаем \(2x \, dx = 2t \, dt\), откуда \(dx = \frac{t \, dt}{x}\). Также, из \(x^2 = t^2 - 1\) следует, что \(x = \sqrt{t^2 - 1}\) (поскольку \(x > 0\) в контексте задачи). Теперь подставим в интеграл: \(\int \frac{1}{2x \cdot \sqrt{x^2 + 1}} \, dx = \int \frac{1}{2x \cdot t} \cdot \frac{t \, dt}{x} = \int \frac{1}{2x^2} \, dt\) Используя \(x^2 = t^2 - 1\), получаем: \(\int \frac{1}{2(t^2 - 1)} \, dt = \frac{1}{2} \int \frac{1}{t^2 - 1} \, dt\) Интеграл \(\int \frac{1}{t^2 - 1} \, dt\) можно вычислить с помощью метода частичных дробей: \(\frac{ • Self-reported

74.1%

Математика

Математические задачи и вычисления

GSM8k

8-shot • Self-reported

90.0%

MATH

4-shot • Self-reported

50.6%

Рассуждения

Логические рассуждения и анализ

GPQA

0-shot Этот метод означает, что модель выполняет задачу без каких-либо примеров или указаний по выполнению задачи. Это самый чистый и прямой тест способностей модели, так как единственная информация, которую получает модель — это задание, которое необходимо выполнить. Метод 0-shot особенно полезен для оценки врожденных возможностей модели, но может быть сложнее для задач, которые требуют определенного формата ответа или следования конкретным инструкциям, которые не были явно указаны. • Self-reported

35.9%

Мультимодальность

Работа с изображениями и визуальными данными

DocVQA

Нулевой шот В этом режиме мы исследуем способность модели правильно отвечать на вопросы без примеров. Мы включаем заданный вопрос с простой инструкцией дать ответ. Это позволяет нам лучше понять встроенные возможности модели отвечать на вопросы из заданной области. Примеры: - Определите высоту треугольника со сторонами 5, 5 и 6. - Найдите производную f(x) = x^3 + 2x^2 - 5x + 7. - Решите уравнение 3x + 5 = 2x - 7. • Self-reported

85.6%

MathVista

0-shot В модели тестирования 0-shot модель должна решить задачу с нуля, полагаясь только на свое предварительное обучение, без каких-либо конкретных примеров, демонстрирующих решение аналогичных проблем. Такое тестирование позволяет нам оценить изначальную способность модели решать задачи без специальных инструкций. Это, как правило, самый сложный для модели способ тестирования, поскольку ей не предоставляется никаких дополнительных подсказок или контекста для решения проблемы. В контексте наших испытаний 0-shot тестирование раскрывает базовые возможности модели в области математических рассуждений и ее способность переносить предварительно полученные знания на новые задачи без дополнительного обучения. • Self-reported

52.8%

MMMU

Сравнительный анализ моделей искусственного интеллекта, созданных компанией Anthropic, с упором на производительность модели Claude 3 Opus при решении алгебраических задач. Я сравнил Claude 3 Opus с Claude 2 и Claude 3 Sonnet, чтобы оценить их относительную производительность при решении математических задач и понять, насколько заметным было улучшение от Claude 2 до Claude 3 Opus. Используя одинаковые алгебраические задачи и одинаковую инструкцию ("Solve step-by-step"), я отправил запросы всем трем моделям. Результаты показали, что Claude 3 Opus значительно превосходит как Claude 2, так и Claude 3 Sonnet по точности решения сложных алгебраических задач. Основные наблюдения: - Claude 2 допускал ошибки в большинстве тестовых задач и редко находил верные решения - Claude 3 Sonnet показал некоторые улучшения по сравнению с Claude 2, но все еще совершал ошибки в сложных задачах - Claude 3 Opus правильно решил практически все задачи с четким и понятным пошаговым объяснением Эти результаты подтверждают заявления Anthropic о существенном улучшении математических способностей в новой линейке моделей Claude 3, особенно в флагманской модели Opus. • Self-reported

53.6%

Другие тесты

Специализированные бенчмарки

MMLU-Pro

0-shot Подход «с нулевым обучением» означает, что модель не получала никаких примеров выполнения конкретной задачи перед её решением. Вместо этого ей дают только инструкции с описанием задачи, которую нужно выполнить. Например, модель могла бы получить инструкцию «Оцени, является ли следующее утверждение истинным или ложным» без каких-либо примеров истинных или ложных утверждений. Подход с нулевым обучением особенно важен при оценке способностей языковых моделей, поскольку он измеряет их настоящее понимание и обобщение, а не просто способность следовать шаблонам из предоставленных примеров. Это также делает оценку более реалистичной, так как в большинстве реальных сценариев использования модели не получают примеры заранее. Когда языковые модели, такие как GPT-4, оцениваются в режиме с нулевым обучением, это показывает, насколько хорошо они могут применять свои общие знания и языковое понимание к новым задачам без дополнительного обучения или тонкой настройки. • Self-reported

51.0%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

28 марта 2024 г.

Последнее обновление

19 июля 2025 г.