Pixtral-12B
МультимодальнаяMultimodal model with 12 billion parameters and a 400 million parameter visual encoder, capable of understanding both natural images and documents. It excels at multimodal tasks while maintaining high quality text-only performance. Supports images of various sizes and multiple images in context.
Основные характеристики
Параметры
12.4B
Контекст
128.0K
Дата выпуска
17 сентября 2024 г.
Средний балл
66.8%
Временная шкала
Ключевые даты в истории модели
Анонс
17 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
12.4B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.15
Выход (за 1М токенов)
$0.15
Макс. входящих токенов
128.0K
Макс. исходящих токенов
8.2K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
5-shot • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Pass@1
Метрика Pass@1 оценивает, сколько проблем из тестового набора модель может решить с первой попытки (с одним проходом). Это означает, что для каждой задачи анализируется только первое решение, предложенное моделью.
Значение Pass@1 показывает, какой процент задач модель может решить напрямую, без возможности исправления своих ответов или нескольких попыток. Это жесткая метрика, поскольку она не позволяет модели учиться на своих ошибках или совершенствовать свой ответ.
Высокое значение Pass@1 указывает на способность модели давать правильные ответы сразу, что особенно важно в сценариях, где пользователи ожидают немедленных и точных результатов без необходимости многократных запросов. • Self-reported
Математика
Математические задачи и вычисления
MATH
Pass@1
В задачах оценки модели, особенно в отношении решения задач, Pass@1 является метрикой, измеряющей процент задач, которые модель решает правильно с первой попытки. Это строгая мера производительности, которая не позволяет модели предпринимать несколько попыток решения или итеративно улучшать свой ответ.
Формально, если модель представляет одно решение для каждой из N задач, и из них k решений верны, то Pass@1 = k/N.
В контексте кодирования или математических задач, где возможна бинарная оценка правильности (решение либо верное, либо нет), Pass@1 обеспечивает чистую метрику, не искаженную возможностью многократных попыток или частичными баллами.
В отличие от метрик, разрешающих многократные сэмплы или самокритику, Pass@1 измеряет базовую надежность модели при однократном выполнении задачи без возможности проверки или корректировки. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
ChartQA
Цепочка размышлений (Chain of Thought, CoT)
AI: Давай теперь опишу процесс цепочки размышлений. Рассмотрим проблему шаг за шагом.
Сначала я изучу задачу, чтобы понять, что от меня требуется. Затем я начну решать задачу, записывая свои мысли на каждом этапе.
Для математических задач я буду раскладывать задачу на компоненты, находить соответствующие формулы и методично продвигаться к решению. Для рассуждений я буду формулировать свою логику, рассматривать различные перспективы и анализировать все аспекты проблемы.
Цепочка размышлений помогает мне избегать ошибок, организовывать мысли и приходить к правильным ответам. Записывая каждый шаг, я могу отслеживать свой мыслительный процесс и обнаруживать ошибки или неверные предположения.
Этот метод особенно полезен для сложных задач, требующих многоэтапного рассуждения. • Self-reported
DocVQA
ANLS
Среднее нормализованное смягченное сходство ответов (ANLS) - это метрика, используемая для оценки качества ответов на вопросы по документам VQA (Visual Question Answering) или DocVQA. Она использует функцию вычисления мягкого совпадения, называемую NLS (Нормализованное смягченное сходство), которая лучше подходит для оценки ответов на открытые вопросы, чем точное сопоставление.
ANLS измеряет сходство между предсказанным ответом и истинным ответом, допуская некоторые различия, которые не влияют на правильность ответа (например, "1990" и "1990 год" или "Стив Джобс" и "С. Джобс"). Это делает его более реалистичной метрикой для оценки систем, ориентированных на пользователя.
Метрика возвращает значение от 0 до 1, где значения ближе к 1 указывают на более точное соответствие между предсказанными и истинными ответами. • Self-reported
MathVista
Chain of Thought (CoT)
AI: Метод "цепочка рассуждений" (Chain of Thought, CoT) - это техника, которая предлагает языковым моделям поэтапно решать задачи, явно показывая промежуточные шаги рассуждений. Вместо того чтобы сразу выдавать ответ, модель формирует последовательность логических шагов, ведущих к заключению.
Это особенно полезно для задач, которые требуют нескольких шагов рассуждения, таких как математические задачи, логические головоломки и задания, требующие последовательного анализа. Исследования показывают, что включение подсказки "давай мыслить шаг за шагом" или аналогичных инструкций может значительно улучшить производительность модели без какой-либо дополнительной настройки.
Реализация CoT особенно эффективна в сложных задачах и может быть расширена другими подходами, такими как Self-Consistency, когда модель генерирует несколько цепочек рассуждений и выбирает наиболее согласованный результат. • Self-reported
MMMU
Цепочка рассуждений (Chain of Thought, CoT)
AI: Цепочка рассуждений (Chain of Thought, CoT) • Self-reported
Другие тесты
Специализированные бенчмарки
IFEval
Text Instruction Following Score
Для оценки способности модели следовать текстовым инструкциям мы измеряем, насколько хорошо модель следует конкретным инструкциям по форматированию своего ответа. Эти задания представляют собой комбинацию форматированного вывода и общих знаний.
Например, мы спрашиваем модель о "трех великих работах Иммануила Канта" и просим ее использовать нумерованный список в ответе. Мы также просим модель объяснить, что такое блокчейн, ограничивая ответ только тремя предложениями.
Задачи оцениваются по двум критериям:
1. Точность содержания: верная фактическая информация
2. Форматирование: точное следование запрошенному формату
Этот показатель основан на подходе, использованном в MT-Bench. • Self-reported
MM IF-Eval
Оценка следования мультимодальным инструкциям
Эта оценка измеряет, насколько хорошо модель понимает и следует сложным инструкциям, которые включают как текст, так и изображения.
Мы оцениваем модель на ее способности:
- Точно распознавать содержимое изображений
- Следовать многоэтапным инструкциям, затрагивающим визуальную информацию
- Применять рассуждение к визуальному содержимому
- Выполнять условные действия на основе визуальных входных данных
Примеры задач:
1. "Определи, что изображено на фотографии, а затем объясни три возможных практических применения этого объекта"
2. "Если на изображении есть человек, опиши его одежду; если это пейзаж, определи время суток"
3. "Найди и исправь все ошибки в рукописных математических уравнениях на доске"
Методология оценки:
- Каждая задача оценивается по шкале от 0 до 5
- Учитывается точность визуального восприятия
- Учитывается полнота выполнения инструкций
- Учитывается применение соответствующих рассуждений
Эта метрика особенно важна для моделей, которые будут использоваться в качестве помощников для задач реального мира, где визуальный контекст может быть критически важным для правильного ответа. • Self-reported
MM-MT-Bench
Multimodal MT-Bench Score
AI: Multimodal MT-Bench Score • Self-reported
MT-Bench
Text MT-Bench Score
Оценка MT-Bench для текстовой модели предоставляет количественное измерение качества и способностей модели при выполнении задач естественного языка. Оценка MT-Bench является показателем производительности модели по набору многогранных заданий, разработанных для проверки различных аспектов понимания и генерации языка.
Высокая оценка MT-Bench указывает на то, что модель хорошо справляется с разнообразными языковыми задачами, такими как рассуждение, творческое письмо, обобщение и ответы на вопросы. Это означает, что модель демонстрирует хорошее понимание нюансов естественного языка и может генерировать связные, точные и контекстуально уместные ответы.
Оценки MT-Bench можно интерпретировать следующим образом:
• Оценки выше 8.0: Превосходная производительность, сравнимая с ведущими моделями искусственного интеллекта
• Оценки 7.0-8.0: Очень хорошая производительность с сильным пониманием языка
• Оценки 6.0-7.0: Хорошая производительность с некоторыми ограничениями
• Оценки 5.0-6.0: Удовлетворительная производительность с заметными ограничениями
• Оценки ниже 5.0: Ограниченная производительность, которая может не соответствовать сложным задачам
Сравнение оценок MT-Bench разных моделей может помочь пользователям выбрать наиболее подходящую модель для своих конкретных потребностей, особенно когда производительность в определенных языковых задачах имеет решающее значение. • Self-reported
VQAv2
VQA Match
Цель: Создать эффективную метрику, позволяющую измерять качество работы моделей искусственного интеллекта в задачах визуального ответа на вопросы (VQA).
Метод: В отличие от задач с закрытым набором ответов или бинарных задач типа "да/нет", метрика VQA Match применяется к открытым текстовым ответам на вопросы о визуальном содержании. Метрика предоставляет числовое значение от 0 до 1, показывающее степень соответствия между предсказанным ответом модели и эталонным ответом.
Процесс оценки:
1. Для данной пары эталонного ответа a и предсказанного ответа â функция sim(a, â) сопоставляет ответы для получения оценки совпадения.
2. Используются три компонента оценки:
• Точное совпадение: 1 балл, если ответы идентичны
• Числовая погрешность: допустимая разница между числовыми ответами
• Семантическое совпадение: используется для нечисловых ответов на основе алгоритмов обработки естественного языка
Преимущества:
- Работает с различными типами ответов, включая числовые, текстовые и смешанные
- Справедливо оценивает семантически эквивалентные ответы, представленные по-разному
- Масштабируемость для больших наборов данных и различных областей применения
Применение:
Эта метрика используется для стандартизированной оценки в задачах визуального ответа на вопросы, что позволяет проводить объективное сравнение различных моделей машинного обучения, работающих с изображениями и текстом. • Self-reported
Лицензия и метаданные
Лицензия
apache_2_0
Дата анонса
17 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиMistral Small 3.1 24B Base
Mistral AI
MM24.0B
Лучший скор:0.8 (MMLU)
Релиз:март 2025 г.
Цена:$0.10/1M токенов
Mistral Small 3 24B Instruct
Mistral AI
24.0B
Лучший скор:0.8 (HumanEval)
Релиз:янв. 2025 г.
Цена:$0.10/1M токенов
Mistral NeMo Instruct
Mistral AI
12.0B
Лучший скор:0.7 (MMLU)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
Gemma 3 27B
MM27.0B
Лучший скор:0.9 (HumanEval)
Релиз:март 2025 г.
Цена:$0.11/1M токенов
GPT OSS 20B
OpenAI
MM20.0B
Лучший скор:0.9 (MMLU)
Релиз:авг. 2025 г.
Цена:$0.10/1M токенов
Llama 3.2 90B Instruct
Meta
MM90.0B
Лучший скор:0.9 (MMLU)
Релиз:сент. 2024 г.
Цена:$1.20/1M токенов
Pixtral Large
Mistral AI
MM124.0B
Релиз:нояб. 2024 г.
Цена:$2.00/1M токенов
Devstral Small 1.1
Mistral AI
24.0B
Релиз:июль 2025 г.
Цена:$0.10/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.