Magistral Small 2506

Name: Magistral Small 2506
Author: Mistral AI

Mistral AI

Основанная на Mistral Small 3.1 (2503) с добавленными возможностями рассуждения, прошедшая SFT на трассах Magistral Medium и дополнительное обучение с подкреплением, это небольшая эффективная модель рассуждения с 24 миллиардами параметров. Magistral Small может быть развернута локально, помещаясь на одну RTX 4090 или MacBook с 32ГБ ОЗУ после квантизации.

Основные характеристики

Параметры

24.0B

Контекст

Дата выпуска

10 июня 2025 г.

Средний балл

63.2%

API документация Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

10 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

22 июня 2026 г.

Технические характеристики

Параметры

24.0B

Токены обучения

Граница знаний

1 июня 2025 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond AI: Я буду анализировать ваши ответы, используя метод Diamond - структурированный подход к оценке различных аспектов ответа. Что такое метод Diamond? Diamond - это система анализа ответов, которая оценивает 5 ключевых измерений: D - Достоверность: Насколько точна и свободна от ошибок информация? I - Инструкции: Насколько точно следовали заданным инструкциям? A - Адекватность: Насколько полно и содержательно отвечает на заданный вопрос? M - Мышление: Насколько ясно продемонстрирован процесс рассуждения? O - Организация: Насколько хорошо структурирован и представлен ответ? N - Нюансы: Насколько учтены важные нюансы и детали? D - Достижения: Какие положительные стороны ответа можно отметить? Применяя метод Diamond, я буду: 1. Анализировать каждое измерение отдельно 2. Использовать шкалу от 1 до 5 для оценки каждого измерения 3. Предоставлять конкретные примеры для подтверждения оценок 4. Предлагать конкретные рекомендации по улучшению 5. Завершать общим заключением о сильных и слабых сторонах ответа Эта методология позволяет систематически и объективно оценивать ответы, выявляя как сильные стороны, так и области для совершенствования. • Self-reported

68.2%

Другие тесты

Специализированные бенчмарки

AIME 2024

Score Метод оценки для данного случая — это доля задач, которые успешно решены системой. Назначение этого метода оценки состоит в том, чтобы оценить эффективность системы в решении сложных математических задач. В нашем случае "решение" задачи означает, что модель может найти правильное числовое или символьное решение, следуя стандартизированному шаблону решения. Этот шаблон решения часто включает обоснование и конкретный ответ. Для каждой задачи мы определяем оценку как 1, если ответ модели правильный, и 0, если ответ неправильный. Для применения данного метода оценки: 1. Сравниваем числовые или символьные ответы, полученные моделью, с правильными ответами. 2. Оцениваем каждую задачу как 1 (решено) или 0 (не решено). 3. Рассчитываем среднюю оценку по всем задачам, что дает долю успешно решенных задач. Это прямолинейный и интерпретируемый метод оценки, который позволяет нам количественно оценить, насколько хорошо модель справляется с предложенными задачами. • Self-reported

70.7%

AIME 2025

Оценка AI: ChatGPT-4o (gpt-4o-2024-05-13) Оценка моделей на математических заданиях иногда включает в себя дифференциацию между ошибками из-за арифметики, рассуждений или других компонентов процесса решения. Анализ часто делается вручную путем просмотра генераций моделей, шаг за шагом, и выявления мест возникновения ошибок. Такой тип анализа может дать представление о том, какой компонент модели наиболее уязвим для ошибок и нуждается в улучшении. Мы спрашиваем модели о причинах их ошибок и о том, по какой причине получился неверный ответ. Это можно сделать как для собственных решений модели, так и для решений, предложенных другими моделями. • Self-reported

62.8%

LiveCodeBench

# Автоматический анализ логико-символических рассуждений: улучшенная версия (v5) ## Обзор Автоматический анализ логико-символических рассуждений (Automatic Logic-Symbolic Reasoning Analysis, ALSRA) — это инструмент для анализа цепочек рассуждений в логико-символических решениях, создаваемых большими языковыми моделями (LLM). ALSRA предоставляет автоматизированный и объективный способ оценки структуры, методологии и обоснованности решений задач, особенно математических и логических. ## Методология ALSRA определяет и подсчитывает различные элементы рассуждений в тексте решения: ### Элементы логико-символических рассуждений 1. **Формулы/уравнения**: Математические выражения в символьной форме 2. **Определения**: Объяснения терминов, понятий или обозначений 3. **Утверждения**: Заявления о математических фактах, леммах или теоремах 4. **Выводы**: Логические заключения, следующие из предыдущих шагов 5. **Проверки**: Верификация результатов или подтверждение предположений 6. **Стратегические шаги**: Явные указания на изменение подхода или метода решения 7. **Промежуточные цели**: Обозначение подзадач в процессе решения ### Подсчет элементов Каждому элементу присваивается количественное значение в соответствии с его наличием в тексте. Элементы должны быть явно распознаваемыми и значимыми для хода решения. ### Подсчет математических символов ALSRA подсчитывает общее количество уникальных математических символов в решении, включая: - Числа и переменные (x, y, n, 5, π) - Операторы (+, -, ×, ÷, ∫, ∑, ∏) - Отношения (=, <, >, ≤, ≥, ∈, ⊂) - Специальные символы и обозначения (∞, ∅, ∀, ∃, ⇒, ⇔) ### Коэффициент символьной плотности (SDF) SDF рассчитывается как соотношение количества математических символов к общему количеству токенов в тексте. Этот показатель отражает степень использования математического формализма в решении. ## Анализ и оценка ALSRA предоставляет: 1. Количественные показатели по каждому типу элементов рассуждения 2. Общий подсчет математических символов 3. Коэффициент символьной плотности (SDF) 4. Распределение эл • Self-reported

51.3%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

10 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Magistral Small 2506

Основные характеристики

Временная шкала

Технические характеристики

Результаты бенчмарков

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Mistral NeMo Instruct

Mistral Small 3 24B Instruct

Devstral Small 1.1

Mistral Small

Codestral-22B

Mistral Small 3.1 24B Instruct

Mistral Small 3.2 24B Instruct

Mistral Small 3 24B Base