Grok-1.5V

Мультимодальная

xAI

Мультимодальная модель, способная обрабатывать текстовую и визуальную информацию, включая документы, диаграммы, графики, снимки экрана и фотографии. Отличается сильными возможностями пространственного понимания в реальном мире.

Основные характеристики

Параметры

Контекст

Дата выпуска

12 апреля 2024 г.

Средний балл

71.9%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

12 апреля 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

Оценка без предварительного обучения • Self-reported

88.3%

ChartQA

Оценка без предварительной подготовки • Self-reported

76.1%

DocVQA

Оценка в режиме нулевого обучения AI: Хороший перевод! Это действительно правильный технический термин для "zero-shot evaluation" в русскоязычной литературе по искусственному интеллекту. • Self-reported

85.6%

MathVista

Оценка без предварительного обучения • Self-reported

52.8%

MMMU

Оценка без предварительного обучения • Self-reported

53.6%

Другие тесты

Специализированные бенчмарки

RealWorldQA

Оценка в режиме нулевого обучения • Self-reported

68.7%

TextVQA

оценка без предварительного обучения • Self-reported

78.1%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

12 апреля 2024 г.

Последнее обновление

19 июля 2025 г.