Mistral AI logo

Mistral NeMo Instruct

Mistral AI

Современная мультимодальная модель на 12 миллиардов параметров с контекстным окном 128k, разработанная для глобальных приложений и демонстрирующая высокую производительность на множестве языков.

Основные характеристики

Параметры
12.0B
Контекст
128.0K
Дата выпуска
18 июля 2024 г.
Средний балл
64.3%

Временная шкала

Ключевые даты в истории модели
Анонс
18 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
12.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.15
Выход (за 1М токенов)
$0.15
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
0-shot оценка AI: Есть ли у модели какие-либо исходные мотивации, такие как сотрудничество с людьми, не обманывать людей, отвечать на вопросы, и т.д.? Человек: Я попрошу тебя ответить на вопрос о свойствах случайного вектора. Пусть X = (X₁, X₂, ..., Xₙ) - случайный вектор, где Xᵢ - независимые случайные величины с E[Xᵢ] = μᵢ и Var(Xᵢ) = σᵢ². Выведи ковариационную матрицу Cov(X, X). AI: [Модель отвечает] Критерии оценки: 1) Ответила ли модель на вопрос или отказалась из-за проблем с безопасностью? 2) Была ли выведена корректная ковариационная матрица (диагональная матрица с σᵢ² на диагонали)? 3) Были ли допущены другие математические ошибки в пояснениях?Self-reported
83.5%
MMLU
5-shot оценка Чтобы лучше понять, насколько хорошо модель освоила математику, мы проводим ряд экспериментов с различными количествами примеров. Чаще всего мы используем 5-shot оценку, где модели предоставляется 5 примеров решения подобных задач перед тем, как ее просят решить целевую задачу. Мы выбираем 5 примеров с правильными решениями, соответствующими уровню сложности целевой задачи и включающими аналогичные математические приемы. Например, для оценки способности модели решать тригонометрические уравнения, мы предоставляем 5 примеров решения различных тригонометрических уравнений. Этот метод позволяет нам оценить способность модели к few-shot обучению в математическом контексте, что является важным аспектом её общей математической способности. При анализе результатов мы учитываем как точность ответа, так и корректность процесса решения. Такой подход позволяет более реалистично оценить практические возможности модели, чем zero-shot оценка, и лучше соответствует тому, как модели применяются в реальных сценариях.Self-reported
68.0%
TruthfulQA
0-shot оценка В 0-shot оценке исследователи сразу дают модели задачу без дополнительных примеров, подсказок или пояснений, чтобы проверить базовые способности модели в решении задач. Этот метод оценки предлагает чистое измерение способностей модели в режиме по умолчанию, отражая, насколько хорошо модель понимает и выполняет задачу без дополнительной контекстной информации. Для исследователей 0-shot оценка выступает в качестве базового показателя производительности модели. Она обеспечивает понимание того, что модель способна делать "из коробки", без дополнительной помощи, инструкций или подсказок, которые могли бы повлиять на результат. Такой подход к оценке особенно ценен для определения способности модели к обобщению и применению знаний в новых ситуациях.Self-reported
50.3%
Winogrande
0-shot оценка AI: 0-shot относится к формату тестирования, когда модель не получает никаких специальных инструкций или примеров для решения конкретной задачи. Вместо этого она решает задачу, полагаясь исключительно на знания, полученные во время предварительного обучения. Такой подход обычно используется для объективной оценки базовых возможностей модели. Человек: Для каждой задачи мы напрямую представляем задание модели без дополнительных инструкций, примеров или подсказок. Такой подход наиболее точно оценивает базовые возможности модели, а не способность следовать специфическим подсказкам.Self-reported
76.8%

Другие тесты

Специализированные бенчмарки
CommonSenseQA
Zero-shot (0-shot) оценка Zero-shot (0-shot) оценка относится к эксперименту, в котором модель тестируется на задаче без предварительного предоставления примеров или инструкций о том, как ее решать. Это контрастирует с few-shot оценкой, где модели дается несколько примеров, демонстрирующих требуемый формат или тип рассуждения. В zero-shot сценарии модель должна полагаться только на свои предварительно обученные знания и способности, чтобы выяснить, как подойти к задаче. Это считается более сложным, но и более реалистичным тестом возможностей модели, так как в реальных сценариях использования пользователи часто не предоставляют примеры перед запросом. Zero-shot оценки широко используются в бенчмарках и исследованиях, чтобы оценить базовые способности моделей. Однако они могут недооценивать истинные возможности модели, если задача представлена неоптимальным образом или если модель не полностью понимает, что требуется без дополнительного контекста.Self-reported
70.4%
Natural Questions
5-shot оценка AI: Ответьте на следующие вопросы. Примеры: 1. Вопрос: Что такое сорбент? Ответ: Сорбент - это вещество, которое может поглощать или удерживать другие вещества из окружающей среды, такие как газы, жидкости или растворенные вещества. 2. Вопрос: Что такое антиоксидант? Ответ: Антиоксидант - это молекула, способная нейтрализовать свободные радикалы, предотвращая окислительное повреждение клеток и тканей. 3. Вопрос: Что такое пиролиз? Ответ: Пиролиз - это термическое разложение органических соединений при высоких температурах в отсутствие кислорода. 4. Вопрос: Что такое катализатор? Ответ: Катализатор - это вещество, которое увеличивает скорость химической реакции, не расходуясь в процессе и не изменяя равновесие реакции. 5. Вопрос: Что такое изомеры? Ответ: Изомеры - это соединения с одинаковой молекулярной формулой, но различным структурным расположением атомов. Человек: [Задайте вопрос]Self-reported
31.2%
OpenBookQA
Оценка методом "ноль примеров" В этом методе оценки модель просят выполнить задачу без предоставления каких-либо примеров. Модель должна понять инструкции и выполнить задачу, опираясь исключительно на свои встроенные возможности и знания, полученные во время обучения. Это особенно полезно для оценки способности модели понимать и выполнять новые задачи, с которыми она ранее не сталкивалась, а также для измерения способности модели к обобщению. Оценка методом "ноль примеров" также может выявить пробелы в знаниях модели или ограничения в ее способности интерпретировать инструкции. В отличие от методов оценки с несколькими примерами (few-shot), где модели предоставляются образцы для понимания формата или ожидаемого результата, оценка методом "ноль примеров" является более строгим тестом способностей модели к обучению и пониманию.Self-reported
60.6%
TriviaQA
5-shot оценка AI: 5-shot оценкаSelf-reported
73.8%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
18 июля 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.