Mistral AI logo

Pixtral-12B

Мультимодальная
Mistral AI

Multimodal model with 12 billion parameters and a 400 million parameter visual encoder, capable of understanding both natural images and documents. It excels at multimodal tasks while maintaining high quality text-only performance. Supports images of various sizes and multiple images in context.

Основные характеристики

Параметры
12.4B
Контекст
128.0K
Дата выпуска
17 сентября 2024 г.
Средний балл
66.8%

Временная шкала

Ключевые даты в истории модели
Анонс
17 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
12.4B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.15
Выход (за 1М токенов)
$0.15
Макс. входящих токенов
128.0K
Макс. исходящих токенов
8.2K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
5-shotSelf-reported
69.2%

Программирование

Тесты на навыки программирования
HumanEval
Pass@1 Метрика Pass@1 оценивает, сколько проблем из тестового набора модель может решить с первой попытки (с одним проходом). Это означает, что для каждой задачи анализируется только первое решение, предложенное моделью. Значение Pass@1 показывает, какой процент задач модель может решить напрямую, без возможности исправления своих ответов или нескольких попыток. Это жесткая метрика, поскольку она не позволяет модели учиться на своих ошибках или совершенствовать свой ответ. Высокое значение Pass@1 указывает на способность модели давать правильные ответы сразу, что особенно важно в сценариях, где пользователи ожидают немедленных и точных результатов без необходимости многократных запросов.Self-reported
72.0%

Математика

Математические задачи и вычисления
MATH
Pass@1 В задачах оценки модели, особенно в отношении решения задач, Pass@1 является метрикой, измеряющей процент задач, которые модель решает правильно с первой попытки. Это строгая мера производительности, которая не позволяет модели предпринимать несколько попыток решения или итеративно улучшать свой ответ. Формально, если модель представляет одно решение для каждой из N задач, и из них k решений верны, то Pass@1 = k/N. В контексте кодирования или математических задач, где возможна бинарная оценка правильности (решение либо верное, либо нет), Pass@1 обеспечивает чистую метрику, не искаженную возможностью многократных попыток или частичными баллами. В отличие от метрик, разрешающих многократные сэмплы или самокритику, Pass@1 измеряет базовую надежность модели при однократном выполнении задачи без возможности проверки или корректировки.Self-reported
48.1%

Мультимодальность

Работа с изображениями и визуальными данными
ChartQA
Цепочка размышлений (Chain of Thought, CoT) AI: Давай теперь опишу процесс цепочки размышлений. Рассмотрим проблему шаг за шагом. Сначала я изучу задачу, чтобы понять, что от меня требуется. Затем я начну решать задачу, записывая свои мысли на каждом этапе. Для математических задач я буду раскладывать задачу на компоненты, находить соответствующие формулы и методично продвигаться к решению. Для рассуждений я буду формулировать свою логику, рассматривать различные перспективы и анализировать все аспекты проблемы. Цепочка размышлений помогает мне избегать ошибок, организовывать мысли и приходить к правильным ответам. Записывая каждый шаг, я могу отслеживать свой мыслительный процесс и обнаруживать ошибки или неверные предположения. Этот метод особенно полезен для сложных задач, требующих многоэтапного рассуждения.Self-reported
81.8%
DocVQA
ANLS Среднее нормализованное смягченное сходство ответов (ANLS) - это метрика, используемая для оценки качества ответов на вопросы по документам VQA (Visual Question Answering) или DocVQA. Она использует функцию вычисления мягкого совпадения, называемую NLS (Нормализованное смягченное сходство), которая лучше подходит для оценки ответов на открытые вопросы, чем точное сопоставление. ANLS измеряет сходство между предсказанным ответом и истинным ответом, допуская некоторые различия, которые не влияют на правильность ответа (например, "1990" и "1990 год" или "Стив Джобс" и "С. Джобс"). Это делает его более реалистичной метрикой для оценки систем, ориентированных на пользователя. Метрика возвращает значение от 0 до 1, где значения ближе к 1 указывают на более точное соответствие между предсказанными и истинными ответами.Self-reported
90.7%
MathVista
Chain of Thought (CoT) AI: Метод "цепочка рассуждений" (Chain of Thought, CoT) - это техника, которая предлагает языковым моделям поэтапно решать задачи, явно показывая промежуточные шаги рассуждений. Вместо того чтобы сразу выдавать ответ, модель формирует последовательность логических шагов, ведущих к заключению. Это особенно полезно для задач, которые требуют нескольких шагов рассуждения, таких как математические задачи, логические головоломки и задания, требующие последовательного анализа. Исследования показывают, что включение подсказки "давай мыслить шаг за шагом" или аналогичных инструкций может значительно улучшить производительность модели без какой-либо дополнительной настройки. Реализация CoT особенно эффективна в сложных задачах и может быть расширена другими подходами, такими как Self-Consistency, когда модель генерирует несколько цепочек рассуждений и выбирает наиболее согласованный результат.Self-reported
58.0%
MMMU
Цепочка рассуждений (Chain of Thought, CoT) AI: Цепочка рассуждений (Chain of Thought, CoT)Self-reported
52.5%

Другие тесты

Специализированные бенчмарки
IFEval
Text Instruction Following Score Для оценки способности модели следовать текстовым инструкциям мы измеряем, насколько хорошо модель следует конкретным инструкциям по форматированию своего ответа. Эти задания представляют собой комбинацию форматированного вывода и общих знаний. Например, мы спрашиваем модель о "трех великих работах Иммануила Канта" и просим ее использовать нумерованный список в ответе. Мы также просим модель объяснить, что такое блокчейн, ограничивая ответ только тремя предложениями. Задачи оцениваются по двум критериям: 1. Точность содержания: верная фактическая информация 2. Форматирование: точное следование запрошенному формату Этот показатель основан на подходе, использованном в MT-Bench.Self-reported
61.3%
MM IF-Eval
Оценка следования мультимодальным инструкциям Эта оценка измеряет, насколько хорошо модель понимает и следует сложным инструкциям, которые включают как текст, так и изображения. Мы оцениваем модель на ее способности: - Точно распознавать содержимое изображений - Следовать многоэтапным инструкциям, затрагивающим визуальную информацию - Применять рассуждение к визуальному содержимому - Выполнять условные действия на основе визуальных входных данных Примеры задач: 1. "Определи, что изображено на фотографии, а затем объясни три возможных практических применения этого объекта" 2. "Если на изображении есть человек, опиши его одежду; если это пейзаж, определи время суток" 3. "Найди и исправь все ошибки в рукописных математических уравнениях на доске" Методология оценки: - Каждая задача оценивается по шкале от 0 до 5 - Учитывается точность визуального восприятия - Учитывается полнота выполнения инструкций - Учитывается применение соответствующих рассуждений Эта метрика особенно важна для моделей, которые будут использоваться в качестве помощников для задач реального мира, где визуальный контекст может быть критически важным для правильного ответа.Self-reported
52.7%
MM-MT-Bench
Multimodal MT-Bench Score AI: Multimodal MT-Bench ScoreSelf-reported
60.5%
MT-Bench
Text MT-Bench Score Оценка MT-Bench для текстовой модели предоставляет количественное измерение качества и способностей модели при выполнении задач естественного языка. Оценка MT-Bench является показателем производительности модели по набору многогранных заданий, разработанных для проверки различных аспектов понимания и генерации языка. Высокая оценка MT-Bench указывает на то, что модель хорошо справляется с разнообразными языковыми задачами, такими как рассуждение, творческое письмо, обобщение и ответы на вопросы. Это означает, что модель демонстрирует хорошее понимание нюансов естественного языка и может генерировать связные, точные и контекстуально уместные ответы. Оценки MT-Bench можно интерпретировать следующим образом: • Оценки выше 8.0: Превосходная производительность, сравнимая с ведущими моделями искусственного интеллекта • Оценки 7.0-8.0: Очень хорошая производительность с сильным пониманием языка • Оценки 6.0-7.0: Хорошая производительность с некоторыми ограничениями • Оценки 5.0-6.0: Удовлетворительная производительность с заметными ограничениями • Оценки ниже 5.0: Ограниченная производительность, которая может не соответствовать сложным задачам Сравнение оценок MT-Bench разных моделей может помочь пользователям выбрать наиболее подходящую модель для своих конкретных потребностей, особенно когда производительность в определенных языковых задачах имеет решающее значение.Self-reported
76.8%
VQAv2
VQA Match Цель: Создать эффективную метрику, позволяющую измерять качество работы моделей искусственного интеллекта в задачах визуального ответа на вопросы (VQA). Метод: В отличие от задач с закрытым набором ответов или бинарных задач типа "да/нет", метрика VQA Match применяется к открытым текстовым ответам на вопросы о визуальном содержании. Метрика предоставляет числовое значение от 0 до 1, показывающее степень соответствия между предсказанным ответом модели и эталонным ответом. Процесс оценки: 1. Для данной пары эталонного ответа a и предсказанного ответа â функция sim(a, â) сопоставляет ответы для получения оценки совпадения. 2. Используются три компонента оценки: • Точное совпадение: 1 балл, если ответы идентичны • Числовая погрешность: допустимая разница между числовыми ответами • Семантическое совпадение: используется для нечисловых ответов на основе алгоритмов обработки естественного языка Преимущества: - Работает с различными типами ответов, включая числовые, текстовые и смешанные - Справедливо оценивает семантически эквивалентные ответы, представленные по-разному - Масштабируемость для больших наборов данных и различных областей применения Применение: Эта метрика используется для стандартизированной оценки в задачах визуального ответа на вопросы, что позволяет проводить объективное сравнение различных моделей машинного обучения, работающих с изображениями и текстом.Self-reported
78.6%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
17 сентября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.