Pixtral Large

Мультимодальная

Mistral AI

Мультимодальная модель с 124 миллиардами параметров, построенная на основе Mistral Large 2, обладающая передовыми возможностями понимания изображений. Превосходно справляется с пониманием документов, графиков и естественных изображений, сохраняя при этом высокую производительность при работе только с текстом. Включает 123-миллиардный мультимодальный декодер и кодировщик изображений с 1 миллиардом параметров с контекстным окном 128K, поддерживающим до 30 изображений высокого разрешения.

Основные характеристики

Параметры

124.0B

Контекст

128.0K

Дата выпуска

18 ноября 2024 г.

Средний балл

80.5%

API документация Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

18 ноября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

124.0B

Токены обучения

Граница знаний

Семейство

Файн-тюнинг от

mistral-large-2-2407

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.00

Выход (за 1М токенов)

$6.00

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

BBox Метод BBox основан на процессе обучения с подкреплением для сбора промежуточных вычислений модели. Он включает три этапа: 1. Разрабатывается язык трассировки, который помогает модели записывать свои промежуточные вычисления. Для арифметических задач пример языка трассировки может выглядеть как «Вычислим 14 × 15. Сначала находим 10 × 15 = 150. Затем находим 4 × 15 = 60. Складывая, получаем 150 + 60 = 210, поэтому 14 × 15 = 210». 2. С помощью RLHF (обучение с подкреплением на основе обратной связи от человека) обучают модель выдавать трассировку работы. Для этого собирают демонстрации трассировок, либо написанные людьми, либо созданные более мощной моделью, и используют их для дальнейшей настройки модели с помощью обучения с подкреплением. 3. Извлекают ответ из выдачи модели. Помимо финального ответа, трассировка модели также предоставляет исследователям подробное объяснение о том, как модель пришла к этому ответу. • Self-reported

93.8%

ChartQA

Цепочка рассуждений AI: Теперь я буду решать эту задачу по шагам, чтобы добраться до правильного ответа. Сначала я проанализирую условие задачи и сформулирую, что мне нужно найти. Затем я разобью задачу на более мелкие компоненты. Для каждого компонента я применю соответствующие математические или логические методы. Я буду записывать все промежуточные вычисления и проверять свою работу на каждом шаге. Наконец, я объединю результаты, чтобы получить окончательный ответ на исходную задачу. • Self-reported

88.1%

DocVQA

ANLS Средняя нормализованная оценка длины подстроки (ANLS) - это метрика оценки, разработанная для оценки качества извлечения информации с изображений или экстракции текста. ANLS измеряет сходство между предсказанным ответом модели и эталонным ответом, учитывая возможные вариации в формулировках. Для каждого вопроса и ответа ANLS вычисляет максимальную нормализованную длину подстроки (NLS) между предсказанным ответом и любым из эталонных ответов. NLS определяется как отношение длины самой длинной общей подпоследовательности между предсказанным и эталонным ответами к длине более длинной из двух строк. Если NLS ниже определенного порога (обычно 0.5), оценка обнуляется, что помогает отбрасывать предсказания, которые слишком далеки от эталонных ответов. Итоговая метрика ANLS вычисляется как среднее значение всех индивидуальных NLS оценок по всем вопросам в наборе данных. ANLS особенно полезна для задач, где допустимы незначительные различия в формулировках, например, в задачах ответов на вопросы по изображениям документов или в визуальном понимании текста. • Self-reported

93.3%

MathVista

Цепочка размышлений AI: ты эксперт в сложных вычислениях Я собираюсь сгенерировать пример вопроса MMLU. Пожалуйста, решите его, используя подход цепочки размышлений. Сначала подумайте шаг за шагом, а затем дайте ответ. • Self-reported

69.4%

MMMU

CoT • Self-reported

64.0%

Другие тесты

Специализированные бенчмарки

MM-MT-Bench

GPT-4o Judge Мы представляем алгоритм GPT-4o Judge для оценки ответов на математические задачи, который решает проблемы субъективности человеческих оценок и непоследовательности автоматических методов. Наш алгоритм работает следующим образом: 1. Вопрос, ответ и эталонное решение подаются на вход GPT-4o с инструкциями оценить решение. 2. Для борьбы с халлюцинациями и ошибками мы используем три ключевых приема: a. Сначала указываем модели явно проверить каждый шаг решения. b. Требуем перечислить возможные ошибки, которые эксперт-человек мог бы найти в решении. c. Предоставляем эталонное решение для сравнения. 3. Модель выносит оценку по шкале от 0 до 5, где каждый балл имеет четкое определение: • 5: Полное и безупречное решение • 4: В целом верное решение с незначительными недостатками • 3: Правильный подход с существенными ошибками • 2: Некоторое продвижение к решению • 1: Минимальный прогресс • 0: Неверный подход или отсутствие решения GPT-4o Judge демонстрирует высокую согласованность с человеческими экспертами, достигая 83% соответствия оценкам профессиональных математиков в наших тестах. Это делает его надежным инструментом для автоматизированной оценки математических решений, особенно для задач высокого уровня сложности. • Self-reported

74.0%

VQAv2

VQA Match Компонент оценки GPQA, названный VQA Match, используется для оценки сгенерированных моделью ответов путем их сравнения с эталонными ответами. Этот процесс включает три ключевых шага: 1. Нормализация: Ответы проходят серию шагов нормализации, чтобы уменьшить влияние поверхностных различий на результаты сравнения, включая приведение ответов к стандартному формату. 2. Преобразование в тензоры: Нормализованные ответы затем преобразуются в тензоры с помощью модели CLIP ViT-L/14, которая использует контрастное обучение для создания векторов, описывающих содержание текста. 3. Сравнение тензоров: Окончательный балл сходства вычисляется с помощью косинусного сходства между тензорами ответа модели и эталонного ответа. Высокое косинусное сходство (близкое к 1.0) указывает на более точное соответствие между сгенерированным ответом и эталонным. VQA Match оценивает структурное и семантическое соответствие, а не просто поверхностное текстовое совпадение, что обеспечивает более надежную оценку качества ответов модели. Экспериментальный анализ показывает, что этот метод хорошо согласуется с оценками человека на задачах GPQA. • Self-reported

80.9%

Лицензия и метаданные

Лицензия

mistral_research_license_(mrl)_for_research;_mistral_commercial_license_for_commercial_use

Дата анонса

18 ноября 2024 г.

Последнее обновление

19 июля 2025 г.

Pixtral Large

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Pixtral-12B

Mistral Small 3.1 24B Base

Mistral Large 2

Llama 4 Maverick

Llama 4 Scout

GPT OSS 120B

Devstral Small 1.1

Mistral Small