Ministral 8B Instruct

Mistral AI

Ministral-8B-Instruct-2410 представляет собой настроенную на инструкции модель для локального интеллекта, вычислений на устройстве и граничных случаев использования, значительно превосходящую по производительности существующие модели аналогичного размера.

Основные характеристики

Параметры

8.0B

Контекст

128.0K

Дата выпуска

16 октября 2024 г.

Средний балл

63.3%

API документация Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

16 октября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

8.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.10

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

## Layer-Based Attribution: от общих концепций к конкретным слоям Существует множество методов, которые показывают общую "важность" каждого слоя модели. Это делается путем удаления слоя, изменения его выходных данных или добавления к нему шума, а затем измерения влияния на конечный результат. Однако эти методы могут быть неинформативными, поскольку удаление или значительное изменение выходов любого слоя почти всегда ухудшает общие характеристики модели. Мы вместо этого предлагаем более конкретное измерение важности слоя для отдельных задач или концепций. Мы предлагаем следующий общий протокол. 1. Выберите концепцию, способность или задачу для анализа. Например, для определения слоев, которые поддерживают математические способности или способность следовать инструкциям. 2. Создайте набор тестовых примеров, которые проверяют эту концепцию. Эти примеры могут быть полноценными подсказками или их можно комбинировать с префиксами, чтобы создать конкретные входные данные. 3. Создайте конкретную метрику для измерения эффективности по выбранной концепции. Это может быть простая точность, сходство между выходными данными, или нечто более сложное, например, балл по рубрике, присвоенный LLM-оценщиком. 4. Для каждого слоя (или группы слоев, например, блоков трансформера) примените метод атрибуции, как описано ниже, чтобы определить его важность для выбранной концепции. ### Метод атрибуции: тренировка заглушающих слоев Мы предлагаем подход, в котором мы тренируем небольшие заглушающие слои, которые располагаются поверх выходных данных выбранных слоев, чтобы нарушить конкретные возможности, сохраняя при этом общую производительность модели. 1. Для выбранного слоя L_i вставьте небольшой обучаемый адаптер или заглушающий слой A_i сразу после него. 2. Заморозьте все параметры базовой модели. 3. Обучите A_i, чтобы минимизировать метрику для выбранной концепции на наборе обучающих примеров (отличном от тестовых примеров). Например, обучите A_i, чтобы модель выдавала неправильные ответы на математические задачи, при этом создавая беглые, разумные ответы. 4. Важно также включить регуляризацию, которая ограничив • Self-reported

65.0%

Winogrande

Для бенчмарка GPQA мы создали и использовали новый метод оценки, чтобы справиться с трудностями при проверке обоснований сложных вопросов с открытым ответом. Традиционные методы, такие как автоматическая проверка по ключевым словам или сопоставление с шаблонами ответов, не смогли надежно оценить точность рассуждений LLM в сложных предметных областях с открытыми ответами. Человеческая оценка ограничена тем, что эксперты-люди не обладают знаниями во всех областях. Мы разработали метод, называемый оценкой с помощью процесса (Process-Based Evaluation), который позволяет оценивать ответы LLM без предварительного набора "золотых" ответов. Этот метод основан на двух ключевых компонентах: 1. Структурированная схема оценки, определяющая процесс шаг за шагом, которому должен следовать идеальный оценщик для определения правильности ответа. 2. Использование сильных LLM в качестве оценщиков, которые следуют этой схеме для каждого ответа. Сначала мы разработали подробные схемы оценки с экспертами для каждой предметной области, определяя четкий процесс определения правильности ответов. Затем мы инструктировали GPT-4 выполнять эти оценки для каждого ответа. Чтобы проверить надежность этого метода, мы: • Сравнили рейтинги, полученные от GPT-4, с оценками экспертов-людей по выборке вопросов • Убедились, что оценки GPT-4 хорошо согласуются с экспертными оценками (коэффициент каппа Коэна = 0.83) • Провели тщательную проверку потенциальных источников смещения оценки Примечание: полные детали метода оценки будут включены в техническую документацию, которая будет опубликована вместе с набором данных. • Self-reported

75.3%

Программирование

Тесты на навыки программирования

HumanEval

Автоматическое использование инструментов с помощью внешних запросов (Auto-Tool Use via External Queries) В этом подходе модель может инициировать запросы к внешним API для получения поддержки. Эти запросы могут быть отправлены в инструменты, такие как калькулятор, Python или другие базы знаний. Модель инициирует эти запросы автоматически, что означает, что она решает, когда необходимо использовать инструмент, формулирует запрос и интерпретирует результат. Этот метод похож на агентное рассуждение, но обычно с более ограниченным набором инструментов и с меньшей гибкостью в стратегии выполнения. Подход выигрывает от того, что модель может делегировать вычисления или поиск информации, когда это необходимо, а затем включать результаты в свой ответ. Ограничения включают потенциальные запросы к недоступным или нерелевантным инструментам, зависимость от правильной формулировки запросов и корректной интерпретации результатов. Если модель делает ошибку в одном из этих этапов, конечный результат может быть неверным. • Self-reported

34.8%

Математика

Математические задачи и вычисления

MATH

# Алгоритм оценки понимания языковыми моделями математических рассуждений ## Введение В этой работе мы представляем алгоритм оценки понимания LLM математических рассуждений. Наш алгоритм не требует, чтобы исследователи имели доступ к внутренней структуре LLM, а использует только взаимодействие через API в форме вопросов и ответов. ## Алгоритм Алгоритм состоит из трех этапов: **Этап 1: Создание набора математических задач** Мы выбираем набор задач из математических олимпиад, таких как AIME, American Mathematics Competition и IMO, и готовим их для предоставления модели. **Этап 2: Запрос решений с разными подсказками** Мы просим модель решить каждую задачу с разными подсказками: 1. **Подсказка "решить напрямую"**: Просто попросить модель решить задачу. 2. **Подсказка "пошаговое решение"**: Попросить модель решать задачу шаг за шагом. 3. **Подсказка "подсказать подсказку"**: Дать модели частичную подсказку и попросить продолжить решение. 4. **Подсказка "сделать проверку"**: Дать модели ответ и попросить проверить его. **Этап 3: Классификация ошибок и оценка понимания** Мы анализируем ответы модели, классифицируя ошибки по следующим категориям: - **Концептуальные ошибки**: Модель не понимает основных математических концепций. - **Процедурные ошибки**: Модель понимает концепции, но делает ошибки в реализации. - **Вычислительные ошибки**: Модель понимает метод, но допускает арифметические ошибки. - **Ошибки проверки**: Модель не может правильно проверить решение, даже если ей дан ответ. ## Метрики оценки Для каждой модели мы рассчитываем: 1. **Общий показатель успешности**: Доля правильно решенных задач. 2. **Показатель концептуального понимания**: Доля задач без концептуальных ошибок. 3. **Показатель процедурной точности**: Доля задач без процедурных ошибок среди тех, где нет концептуальных ошибок. 4. **Показатель вычислительной точности**: Доля задач без вычислительных ошибок среди тех, где нет концептуальных и процедурных ошибок. 5. **Показатель способности провер • Self-reported

54.5%

Другие тесты

Специализированные бенчмарки

AGIEval

Мы вводим новую обобщенную технику для проверки производительности языковых моделей, которую мы называем "вероятностное прореживание" (probability truncation). В отличие от ранее предложенных методов, вероятностное прореживание работает с уже существующими выводами модели, ретроспективно оценивая их для выявления ошибок. Основная идея заключается в том, что ошибки модели часто вызываются генерацией продолжений с низкой вероятностью, или недостаточной уверенностью в определенных шагах рассуждения. Пороговое отсечение дает модели возможность задуматься: "Достаточно ли я уверена в следующем шаге, чтобы продолжить?", что позволяет нам выявлять и даже исправлять ошибки рассуждения. Наш метод включает три шага: 1) Стандартная генерация вывода с модели с заданными параметрами температуры и формата 2) Вычисление вероятности каждого токена в сгенерированном тексте 3) Применение порога уверенности для идентификации участков низкой достоверности Выявив токены с низкой вероятностью, мы можем определить, где именно модель делает ошибки или неуверена. Это даёт диагностическую ценность и потенциально возможность повторно запросить модель о проблемных участках рассуждения для получения улучшенных ответов. Простой пример: модель решает математическую задачу и в определенный момент пишет "2 + 3 = 6". Анализ вероятностей токенов может показать, что вероятность токена "6" была на самом деле низкой (скажем, 0.3), что указывает на то, что модель была не очень уверена в этом шаге, несмотря на уверенный тон в ответе. • Self-reported

48.3%

ARC-C

# Автоматическая интерпретация моделей языка В этой секции мы рассматриваем автоматические способы интерпретации внутреннего функционирования моделей языка. Эти методы важны для понимания возможностей, ограничений и потенциальных рисков безопасности моделей. Многие из этих подходов полагаются на определенную степень интроспекции — описание моделью своих собственных механизмов работы или процессов мышления. ## Извлечение теорий из моделей Нас интересует генерация теорий или механистических описаний того, как модели решают определенные задачи. Например, если LLM демонстрирует высокую производительность на математических задачах, мы можем захотеть узнать, "как" она решает эти задачи. Она использует внутренние вычисления, обученные эвристики или какую-то комбинацию обоих подходов? ### Автоинтерпретация Один из базовых методов механистической интерпретации — попросить модель объяснить свой собственный процесс рассуждения. Этот метод, также известный как "самообъяснение" или "автоинтерпретация", включает в себя запрос модели: 1. Рассказать о своих общих возможностях или стратегиях 2. Описать конкретные шаги рассуждения, используемые при решении задач 3. Оценить свои собственные вычисления и объяснить ошибки Хотя автоинтерпретация предоставляет понятные описания человеку, они могут быть неточными или неполными. Модели могут конфабулировать объяснения, которые кажутся правдоподобными, но не отражают их фактические внутренние процессы. ### Механистическая интерпретация через обучение Более структурированный подход к извлечению теорий из моделей заключается в обучении второй модели для интерпретации первой модели. Например, можно обучить одну модель предсказывать поведение другой модели по входным данным, затем использовать первую модель для генерации объяснений поведения второй модели. Этот метод может помочь выявить паттерны в вычислениях модели, которые могут быть не очевидны из прямой автоинтерпретации. Тем не менее, точность и полнота таких подходов остаются открытыми вопросами исследования. ## Идентификация запрещенного поведения Обнаружение нежелательного поведения в моделях, таких как генерация вредоносного контента или проявление защитных/подрывных действий (джейлбрей • Self-reported

71.9%

Arena Hard

• Self-reported

70.9%

French MMLU

# Измерение скорости рассуждений Если мы сравниваем LLM на основе точности в тестах на рассуждение, это не учитывает их вычислительную эффективность. Например, некоторые модели могут использовать очень дорогие вычисления для достижения определенного уровня точности, тогда как другие могут достичь такой же точности гораздо эффективнее. В этом разделе мы обсуждаем способы количественной оценки скорости рассуждений LLM в контексте вычислительной эффективности. Мы определяем **скорость рассуждений** модели LLM как ее способность выполнять задачи на рассуждение с определенной точностью, используя минимальные вычислительные ресурсы. ## Эмпирический метод измерения скорости рассуждений Мы предлагаем эмпирический подход для измерения скорости рассуждений LLM, рассматривая различные уровни вычислительной мощности: 1. **Определение тестового набора**: Выберите тестовый набор, который: - Включает задачи, требующие рассуждений - Имеет чёткие метрики оценки (например, правильность, согласованность) - Имеет достаточный размер для статистической значимости 2. **Выбор моделей для оценки**: Выберите несколько моделей LLM, охватывающих диапазон размеров (от небольших до крупных) и архитектур. 3. **Стандартизация оценки**: Создайте последовательный протокол оценки: - Стандартный формат запросов - Последовательные параметры генерации (temperature, top-p) - Фиксированное число примеров для few-shot тестирования 4. **Сбор результатов**: Для каждой модели запишите: - Точность на тестовом наборе - Используемые вычислительные ресурсы (количество параметров, число токенов контекста, FLOP на токен) 5. **Построение кривой производительности**: Постройте графики, показывающие соотношение между точностью и вычислительными затратами. 6. **Анализ эффективности**: Оцените наклон кривой для измерения скорости рассуждений: - Более крутой наклон означает более высокую скорость рассуждений - Определите точки перегиба, где увеличение вычислений даёт убывающую отдачу ## Количественные метрики для скорости рассуждений Для формального измерения скорости рассуждений мы предлагаем следующие мет • Self-reported

57.5%

MBPP pass@1

# Method for Behavioral Analysis ## Introduction This document outlines the methodology for a systematic behavioral analysis of LLM performance on mathematical reasoning tasks. Our approach combines detailed error analysis with examination of reasoning patterns to understand the foundational capabilities and limitations of these models. ## Analysis Approach ### 1. Error Classification We categorize errors into a multi-level taxonomy: - **Conceptual errors**: Fundamental misunderstandings of mathematical concepts - **Procedural errors**: Mistakes in executing calculation steps - **Reasoning errors**: Logical fallacies or invalid deductive steps - **Attention errors**: Failures to track or maintain relevant information ### 2. Reasoning Pattern Analysis We examine: - **Solution structure**: The overall approach to problem decomposition - **Verification behavior**: How models check their work and handle uncertainty - **Tool usage patterns**: When and how models leverage external calculation tools ### 3. Comparative Analysis We contrast performance across: - Different model architectures and sizes - Various prompt formats and system instructions - Problems of increasing complexity within the same domain ## Implementation Details The analysis uses a combination of: - Manual evaluation by mathematics experts - Automated pattern detection using custom parsing algorithms - Standardized evaluation metrics across different problem types - Cross-validation between different evaluators to ensure reliability This methodology provides both quantitative metrics and qualitative insights into model behavior, revealing not just what models get wrong, but why they fail in specific ways. • Self-reported

70.0%

MT-Bench

Оценка AI: Оценка • Self-reported

83.0%

TriviaQA

# Стратегия "Проверка с использованием диаграммы Венна" ## Интуиция Когда мы думаем о проблемах верификации ответов для общих вопросов с контекстом, основное испытание заключается в том, чтобы определить, является ли данный ответ моделью полностью верифицируемым на основе предоставленного контекста. Можно представить это как проверку того, находится ли ответ полностью "внутри границ" контекста, частично в нем, или полностью вне его. Диаграмма Венна — полезная визуальная аналогия для такого мышления. ## Пошаговый процесс 1. Сначала определите набор заявлений/фактов, содержащихся в ответе модели. 2. Для каждого заявления определите, содержится ли оно: - **Полностью в контексте**: Все детали заявления явно поддерживаются контекстом. - **Частично в контексте**: Некоторые аспекты заявления поддерживаются, но есть дополнительные элементы или нюансы, отсутствующие в контексте. - **Вне контекста**: Заявление не поддерживается предоставленной информацией. 3. Особенно обращайте внимание на: - Конкретные числа, даты, статистику - Причинно-следственные утверждения - Представление мнений как фактов - Обобщения, выходящие за рамки контекста 4. Представьте ответ модели и контекст как два круга в диаграмме Венна: - В идеале ответ должен быть полностью вложенным подмножеством контекста - Любая часть ответа, выходящая за пределы контекста, является потенциальной галлюцинацией 5. Оцените общую поддержку ответа: - **Полностью поддерживается**: Все заявления находятся внутри "круга контекста" - **Частично поддерживается**: Некоторые заявления выходят за пределы контекста - **Минимально поддерживается/не поддерживается**: Большинство или все заявления находятся вне контекста ## Преимущества - Обеспечивает визуальную концептуальную модель для анализа верификации - Помогает систематически оценивать части ответа по отношению к контексту - Особенно эффективна для выявления случаев, когда модель смешивает факты из контекста с информацией вне его ## Ограничения - Может быть сложно определить границы в неявно заявленной информации • Self-reported

65.5%

Лицензия и метаданные

Лицензия

mistral_research_license

Дата анонса

16 октября 2024 г.

Последнее обновление

19 июля 2025 г.

Ministral 8B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Другие тесты

Лицензия и метаданные

Похожие модели

Phi-3.5-mini-instruct

Llama 3.2 3B Instruct

Qwen2.5 7B Instruct

Devstral Medium

Mistral Small

Devstral Small 1.1

Mistral Large 2

Mistral Small 3 24B Instruct