Pixtral-12B

Мультимодальная

Mistral AI

Multimodal model with 12 billion parameters and a 400 million parameter visual encoder, capable of understanding both natural images and documents. It excels at multimodal tasks while maintaining high quality text-only performance. Supports images of various sizes and multiple images in context.

Основные характеристики

Параметры

12.4B

Контекст

128.0K

Дата выпуска

17 сентября 2024 г.

Средний балл

66.8%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

17 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

12.4B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.15

Выход (за 1М токенов)

$0.15

Макс. входящих токенов

128.0K

Макс. исходящих токенов

8.2K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-shot • Self-reported

69.2%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 Метрика Pass@1 оценивает, сколько проблем из тестового набора модель может решить с первой попытки (с одним проходом). Это означает, что для каждой задачи анализируется только первое решение, предложенное моделью. Значение Pass@1 показывает, какой процент задач модель может решить напрямую, без возможности исправления своих ответов или нескольких попыток. Это жесткая метрика, поскольку она не позволяет модели учиться на своих ошибках или совершенствовать свой ответ. Высокое значение Pass@1 указывает на способность модели давать правильные ответы сразу, что особенно важно в сценариях, где пользователи ожидают немедленных и точных результатов без необходимости многократных запросов. • Self-reported

72.0%

Математика

Математические задачи и вычисления

MATH

Pass@1 В задачах оценки модели, особенно в отношении решения задач, Pass@1 является метрикой, измеряющей процент задач, которые модель решает правильно с первой попытки. Это строгая мера производительности, которая не позволяет модели предпринимать несколько попыток решения или итеративно улучшать свой ответ. Формально, если модель представляет одно решение для каждой из N задач, и из них k решений верны, то Pass@1 = k/N. В контексте кодирования или математических задач, где возможна бинарная оценка правильности (решение либо верное, либо нет), Pass@1 обеспечивает чистую метрику, не искаженную возможностью многократных попыток или частичными баллами. В отличие от метрик, разрешающих многократные сэмплы или самокритику, Pass@1 измеряет базовую надежность модели при однократном выполнении задачи без возможности проверки или корректировки. • Self-reported

48.1%

Мультимодальность

Работа с изображениями и визуальными данными

ChartQA

Цепочка размышлений (Chain of Thought, CoT) AI: Давай теперь опишу процесс цепочки размышлений. Рассмотрим проблему шаг за шагом. Сначала я изучу задачу, чтобы понять, что от меня требуется. Затем я начну решать задачу, записывая свои мысли на каждом этапе. Для математических задач я буду раскладывать задачу на компоненты, находить соответствующие формулы и методично продвигаться к решению. Для рассуждений я буду формулировать свою логику, рассматривать различные перспективы и анализировать все аспекты проблемы. Цепочка размышлений помогает мне избегать ошибок, организовывать мысли и приходить к правильным ответам. Записывая каждый шаг, я могу отслеживать свой мыслительный процесс и обнаруживать ошибки или неверные предположения. Этот метод особенно полезен для сложных задач, требующих многоэтапного рассуждения. • Self-reported

81.8%

DocVQA

ANLS Среднее нормализованное смягченное сходство ответов (ANLS) - это метрика, используемая для оценки качества ответов на вопросы по документам VQA (Visual Question Answering) или DocVQA. Она использует функцию вычисления мягкого совпадения, называемую NLS (Нормализованное смягченное сходство), которая лучше подходит для оценки ответов на открытые вопросы, чем точное сопоставление. ANLS измеряет сходство между предсказанным ответом и истинным ответом, допуская некоторые различия, которые не влияют на правильность ответа (например, "1990" и "1990 год" или "Стив Джобс" и "С. Джобс"). Это делает его более реалистичной метрикой для оценки систем, ориентированных на пользователя. Метрика возвращает значение от 0 до 1, где значения ближе к 1 указывают на более точное соответствие между предсказанными и истинными ответами. • Self-reported

90.7%

MathVista

Chain of Thought (CoT) AI: Метод "цепочка рассуждений" (Chain of Thought, CoT) - это техника, которая предлагает языковым моделям поэтапно решать задачи, явно показывая промежуточные шаги рассуждений. Вместо того чтобы сразу выдавать ответ, модель формирует последовательность логических шагов, ведущих к заключению. Это особенно полезно для задач, которые требуют нескольких шагов рассуждения, таких как математические задачи, логические головоломки и задания, требующие последовательного анализа. Исследования показывают, что включение подсказки "давай мыслить шаг за шагом" или аналогичных инструкций может значительно улучшить производительность модели без какой-либо дополнительной настройки. Реализация CoT особенно эффективна в сложных задачах и может быть расширена другими подходами, такими как Self-Consistency, когда модель генерирует несколько цепочек рассуждений и выбирает наиболее согласованный результат. • Self-reported

58.0%

MMMU

Цепочка рассуждений (Chain of Thought, CoT) AI: Цепочка рассуждений (Chain of Thought, CoT) • Self-reported

52.5%

Другие тесты

Специализированные бенчмарки

IFEval

Text Instruction Following Score Для оценки способности модели следовать текстовым инструкциям мы измеряем, насколько хорошо модель следует конкретным инструкциям по форматированию своего ответа. Эти задания представляют собой комбинацию форматированного вывода и общих знаний. Например, мы спрашиваем модель о "трех великих работах Иммануила Канта" и просим ее использовать нумерованный список в ответе. Мы также просим модель объяснить, что такое блокчейн, ограничивая ответ только тремя предложениями. Задачи оцениваются по двум критериям: 1. Точность содержания: верная фактическая информация 2. Форматирование: точное следование запрошенному формату Этот показатель основан на подходе, использованном в MT-Bench. • Self-reported

61.3%

MM IF-Eval

Оценка следования мультимодальным инструкциям Эта оценка измеряет, насколько хорошо модель понимает и следует сложным инструкциям, которые включают как текст, так и изображения. Мы оцениваем модель на ее способности: - Точно распознавать содержимое изображений - Следовать многоэтапным инструкциям, затрагивающим визуальную информацию - Применять рассуждение к визуальному содержимому - Выполнять условные действия на основе визуальных входных данных Примеры задач: 1. "Определи, что изображено на фотографии, а затем объясни три возможных практических применения этого объекта" 2. "Если на изображении есть человек, опиши его одежду; если это пейзаж, определи время суток" 3. "Найди и исправь все ошибки в рукописных математических уравнениях на доске" Методология оценки: - Каждая задача оценивается по шкале от 0 до 5 - Учитывается точность визуального восприятия - Учитывается полнота выполнения инструкций - Учитывается применение соответствующих рассуждений Эта метрика особенно важна для моделей, которые будут использоваться в качестве помощников для задач реального мира, где визуальный контекст может быть критически важным для правильного ответа. • Self-reported

52.7%

MM-MT-Bench

Multimodal MT-Bench Score AI: Multimodal MT-Bench Score • Self-reported

60.5%

MT-Bench

Text MT-Bench Score Оценка MT-Bench для текстовой модели предоставляет количественное измерение качества и способностей модели при выполнении задач естественного языка. Оценка MT-Bench является показателем производительности модели по набору многогранных заданий, разработанных для проверки различных аспектов понимания и генерации языка. Высокая оценка MT-Bench указывает на то, что модель хорошо справляется с разнообразными языковыми задачами, такими как рассуждение, творческое письмо, обобщение и ответы на вопросы. Это означает, что модель демонстрирует хорошее понимание нюансов естественного языка и может генерировать связные, точные и контекстуально уместные ответы. Оценки MT-Bench можно интерпретировать следующим образом: • Оценки выше 8.0: Превосходная производительность, сравнимая с ведущими моделями искусственного интеллекта • Оценки 7.0-8.0: Очень хорошая производительность с сильным пониманием языка • Оценки 6.0-7.0: Хорошая производительность с некоторыми ограничениями • Оценки 5.0-6.0: Удовлетворительная производительность с заметными ограничениями • Оценки ниже 5.0: Ограниченная производительность, которая может не соответствовать сложным задачам Сравнение оценок MT-Bench разных моделей может помочь пользователям выбрать наиболее подходящую модель для своих конкретных потребностей, особенно когда производительность в определенных языковых задачах имеет решающее значение. • Self-reported

76.8%

VQAv2

VQA Match Цель: Создать эффективную метрику, позволяющую измерять качество работы моделей искусственного интеллекта в задачах визуального ответа на вопросы (VQA). Метод: В отличие от задач с закрытым набором ответов или бинарных задач типа "да/нет", метрика VQA Match применяется к открытым текстовым ответам на вопросы о визуальном содержании. Метрика предоставляет числовое значение от 0 до 1, показывающее степень соответствия между предсказанным ответом модели и эталонным ответом. Процесс оценки: 1. Для данной пары эталонного ответа a и предсказанного ответа â функция sim(a, â) сопоставляет ответы для получения оценки совпадения. 2. Используются три компонента оценки: • Точное совпадение: 1 балл, если ответы идентичны • Числовая погрешность: допустимая разница между числовыми ответами • Семантическое совпадение: используется для нечисловых ответов на основе алгоритмов обработки естественного языка Преимущества: - Работает с различными типами ответов, включая числовые, текстовые и смешанные - Справедливо оценивает семантически эквивалентные ответы, представленные по-разному - Масштабируемость для больших наборов данных и различных областей применения Применение: Эта метрика используется для стандартизированной оценки в задачах визуального ответа на вопросы, что позволяет проводить объективное сравнение различных моделей машинного обучения, работающих с изображениями и текстом. • Self-reported

78.6%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

17 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Pixtral-12B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Mistral Small 3.1 24B Base

Mistral Small 3 24B Instruct

Mistral NeMo Instruct

Gemma 3 27B

GPT OSS 20B

Llama 3.2 90B Instruct

Pixtral Large

Mistral Small