Mistral AI logo

Pixtral Large

Мультимодальная
Mistral AI

Мультимодальная модель с 124 миллиардами параметров, построенная на основе Mistral Large 2, обладающая передовыми возможностями понимания изображений. Превосходно справляется с пониманием документов, графиков и естественных изображений, сохраняя при этом высокую производительность при работе только с текстом. Включает 123-миллиардный мультимодальный декодер и кодировщик изображений с 1 миллиардом параметров с контекстным окном 128K, поддерживающим до 30 изображений высокого разрешения.

Основные характеристики

Параметры
124.0B
Контекст
128.0K
Дата выпуска
18 ноября 2024 г.
Средний балл
80.5%

Временная шкала

Ключевые даты в истории модели
Анонс
18 ноября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
124.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Файн-тюнинг от
mistral-large-2-2407
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$2.00
Выход (за 1М токенов)
$6.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными
AI2D
BBox Метод BBox основан на процессе обучения с подкреплением для сбора промежуточных вычислений модели. Он включает три этапа: 1. Разрабатывается язык трассировки, который помогает модели записывать свои промежуточные вычисления. Для арифметических задач пример языка трассировки может выглядеть как «Вычислим 14 × 15. Сначала находим 10 × 15 = 150. Затем находим 4 × 15 = 60. Складывая, получаем 150 + 60 = 210, поэтому 14 × 15 = 210». 2. С помощью RLHF (обучение с подкреплением на основе обратной связи от человека) обучают модель выдавать трассировку работы. Для этого собирают демонстрации трассировок, либо написанные людьми, либо созданные более мощной моделью, и используют их для дальнейшей настройки модели с помощью обучения с подкреплением. 3. Извлекают ответ из выдачи модели. Помимо финального ответа, трассировка модели также предоставляет исследователям подробное объяснение о том, как модель пришла к этому ответу.Self-reported
93.8%
ChartQA
Цепочка рассуждений AI: Теперь я буду решать эту задачу по шагам, чтобы добраться до правильного ответа. Сначала я проанализирую условие задачи и сформулирую, что мне нужно найти. Затем я разобью задачу на более мелкие компоненты. Для каждого компонента я применю соответствующие математические или логические методы. Я буду записывать все промежуточные вычисления и проверять свою работу на каждом шаге. Наконец, я объединю результаты, чтобы получить окончательный ответ на исходную задачу.Self-reported
88.1%
DocVQA
ANLS Средняя нормализованная оценка длины подстроки (ANLS) - это метрика оценки, разработанная для оценки качества извлечения информации с изображений или экстракции текста. ANLS измеряет сходство между предсказанным ответом модели и эталонным ответом, учитывая возможные вариации в формулировках. Для каждого вопроса и ответа ANLS вычисляет максимальную нормализованную длину подстроки (NLS) между предсказанным ответом и любым из эталонных ответов. NLS определяется как отношение длины самой длинной общей подпоследовательности между предсказанным и эталонным ответами к длине более длинной из двух строк. Если NLS ниже определенного порога (обычно 0.5), оценка обнуляется, что помогает отбрасывать предсказания, которые слишком далеки от эталонных ответов. Итоговая метрика ANLS вычисляется как среднее значение всех индивидуальных NLS оценок по всем вопросам в наборе данных. ANLS особенно полезна для задач, где допустимы незначительные различия в формулировках, например, в задачах ответов на вопросы по изображениям документов или в визуальном понимании текста.Self-reported
93.3%
MathVista
Цепочка размышлений AI: ты эксперт в сложных вычислениях Я собираюсь сгенерировать пример вопроса MMLU. Пожалуйста, решите его, используя подход цепочки размышлений. Сначала подумайте шаг за шагом, а затем дайте ответ.Self-reported
69.4%
MMMU
CoTSelf-reported
64.0%

Другие тесты

Специализированные бенчмарки
MM-MT-Bench
GPT-4o Judge Мы представляем алгоритм GPT-4o Judge для оценки ответов на математические задачи, который решает проблемы субъективности человеческих оценок и непоследовательности автоматических методов. Наш алгоритм работает следующим образом: 1. Вопрос, ответ и эталонное решение подаются на вход GPT-4o с инструкциями оценить решение. 2. Для борьбы с халлюцинациями и ошибками мы используем три ключевых приема: a. Сначала указываем модели явно проверить каждый шаг решения. b. Требуем перечислить возможные ошибки, которые эксперт-человек мог бы найти в решении. c. Предоставляем эталонное решение для сравнения. 3. Модель выносит оценку по шкале от 0 до 5, где каждый балл имеет четкое определение: • 5: Полное и безупречное решение • 4: В целом верное решение с незначительными недостатками • 3: Правильный подход с существенными ошибками • 2: Некоторое продвижение к решению • 1: Минимальный прогресс • 0: Неверный подход или отсутствие решения GPT-4o Judge демонстрирует высокую согласованность с человеческими экспертами, достигая 83% соответствия оценкам профессиональных математиков в наших тестах. Это делает его надежным инструментом для автоматизированной оценки математических решений, особенно для задач высокого уровня сложности.Self-reported
74.0%
VQAv2
VQA Match Компонент оценки GPQA, названный VQA Match, используется для оценки сгенерированных моделью ответов путем их сравнения с эталонными ответами. Этот процесс включает три ключевых шага: 1. Нормализация: Ответы проходят серию шагов нормализации, чтобы уменьшить влияние поверхностных различий на результаты сравнения, включая приведение ответов к стандартному формату. 2. Преобразование в тензоры: Нормализованные ответы затем преобразуются в тензоры с помощью модели CLIP ViT-L/14, которая использует контрастное обучение для создания векторов, описывающих содержание текста. 3. Сравнение тензоров: Окончательный балл сходства вычисляется с помощью косинусного сходства между тензорами ответа модели и эталонного ответа. Высокое косинусное сходство (близкое к 1.0) указывает на более точное соответствие между сгенерированным ответом и эталонным. VQA Match оценивает структурное и семантическое соответствие, а не просто поверхностное текстовое совпадение, что обеспечивает более надежную оценку качества ответов модели. Экспериментальный анализ показывает, что этот метод хорошо согласуется с оценками человека на задачах GPQA.Self-reported
80.9%

Лицензия и метаданные

Лицензия
mistral_research_license_(mrl)_for_research;_mistral_commercial_license_for_commercial_use
Дата анонса
18 ноября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.