Mistral AI logo

Magistral Small 2506

Mistral AI

Основанная на Mistral Small 3.1 (2503) с добавленными возможностями рассуждения, прошедшая SFT на трассах Magistral Medium и дополнительное обучение с подкреплением, это небольшая эффективная модель рассуждения с 24 миллиардами параметров. Magistral Small может быть развернута локально, помещаясь на одну RTX 4090 или MacBook с 32ГБ ОЗУ после квантизации.

Основные характеристики

Параметры
24.0B
Контекст
-
Дата выпуска
10 июня 2025 г.
Средний балл
63.2%

Временная шкала

Ключевые даты в истории модели
Анонс
10 июня 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
24.0B
Токены обучения
-
Граница знаний
1 июня 2025 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond AI: Я буду анализировать ваши ответы, используя метод Diamond - структурированный подход к оценке различных аспектов ответа. Что такое метод Diamond? Diamond - это система анализа ответов, которая оценивает 5 ключевых измерений: D - Достоверность: Насколько точна и свободна от ошибок информация? I - Инструкции: Насколько точно следовали заданным инструкциям? A - Адекватность: Насколько полно и содержательно отвечает на заданный вопрос? M - Мышление: Насколько ясно продемонстрирован процесс рассуждения? O - Организация: Насколько хорошо структурирован и представлен ответ? N - Нюансы: Насколько учтены важные нюансы и детали? D - Достижения: Какие положительные стороны ответа можно отметить? Применяя метод Diamond, я буду: 1. Анализировать каждое измерение отдельно 2. Использовать шкалу от 1 до 5 для оценки каждого измерения 3. Предоставлять конкретные примеры для подтверждения оценок 4. Предлагать конкретные рекомендации по улучшению 5. Завершать общим заключением о сильных и слабых сторонах ответа Эта методология позволяет систематически и объективно оценивать ответы, выявляя как сильные стороны, так и области для совершенствования.Self-reported
68.2%

Другие тесты

Специализированные бенчмарки
AIME 2024
Score Метод оценки для данного случая — это доля задач, которые успешно решены системой. Назначение этого метода оценки состоит в том, чтобы оценить эффективность системы в решении сложных математических задач. В нашем случае "решение" задачи означает, что модель может найти правильное числовое или символьное решение, следуя стандартизированному шаблону решения. Этот шаблон решения часто включает обоснование и конкретный ответ. Для каждой задачи мы определяем оценку как 1, если ответ модели правильный, и 0, если ответ неправильный. Для применения данного метода оценки: 1. Сравниваем числовые или символьные ответы, полученные моделью, с правильными ответами. 2. Оцениваем каждую задачу как 1 (решено) или 0 (не решено). 3. Рассчитываем среднюю оценку по всем задачам, что дает долю успешно решенных задач. Это прямолинейный и интерпретируемый метод оценки, который позволяет нам количественно оценить, насколько хорошо модель справляется с предложенными задачами.Self-reported
70.7%
AIME 2025
Оценка AI: ChatGPT-4o (gpt-4o-2024-05-13) Оценка моделей на математических заданиях иногда включает в себя дифференциацию между ошибками из-за арифметики, рассуждений или других компонентов процесса решения. Анализ часто делается вручную путем просмотра генераций моделей, шаг за шагом, и выявления мест возникновения ошибок. Такой тип анализа может дать представление о том, какой компонент модели наиболее уязвим для ошибок и нуждается в улучшении. Мы спрашиваем модели о причинах их ошибок и о том, по какой причине получился неверный ответ. Это можно сделать как для собственных решений модели, так и для решений, предложенных другими моделями.Self-reported
62.8%
LiveCodeBench
# Автоматический анализ логико-символических рассуждений: улучшенная версия (v5) ## Обзор Автоматический анализ логико-символических рассуждений (Automatic Logic-Symbolic Reasoning Analysis, ALSRA) — это инструмент для анализа цепочек рассуждений в логико-символических решениях, создаваемых большими языковыми моделями (LLM). ALSRA предоставляет автоматизированный и объективный способ оценки структуры, методологии и обоснованности решений задач, особенно математических и логических. ## Методология ALSRA определяет и подсчитывает различные элементы рассуждений в тексте решения: ### Элементы логико-символических рассуждений 1. **Формулы/уравнения**: Математические выражения в символьной форме 2. **Определения**: Объяснения терминов, понятий или обозначений 3. **Утверждения**: Заявления о математических фактах, леммах или теоремах 4. **Выводы**: Логические заключения, следующие из предыдущих шагов 5. **Проверки**: Верификация результатов или подтверждение предположений 6. **Стратегические шаги**: Явные указания на изменение подхода или метода решения 7. **Промежуточные цели**: Обозначение подзадач в процессе решения ### Подсчет элементов Каждому элементу присваивается количественное значение в соответствии с его наличием в тексте. Элементы должны быть явно распознаваемыми и значимыми для хода решения. ### Подсчет математических символов ALSRA подсчитывает общее количество уникальных математических символов в решении, включая: - Числа и переменные (x, y, n, 5, π) - Операторы (+, -, ×, ÷, ∫, ∑, ∏) - Отношения (=, <, >, ≤, ≥, ∈, ⊂) - Специальные символы и обозначения (∞, ∅, ∀, ∃, ⇒, ⇔) ### Коэффициент символьной плотности (SDF) SDF рассчитывается как соотношение количества математических символов к общему количеству токенов в тексте. Этот показатель отражает степень использования математического формализма в решении. ## Анализ и оценка ALSRA предоставляет: 1. Количественные показатели по каждому типу элементов рассуждения 2. Общий подсчет математических символов 3. Коэффициент символьной плотности (SDF) 4. Распределение элSelf-reported
51.3%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
10 июня 2025 г.
Последнее обновление
19 июля 2025 г.