Magistral Small 2506
Основанная на Mistral Small 3.1 (2503) с добавленными возможностями рассуждения, прошедшая SFT на трассах Magistral Medium и дополнительное обучение с подкреплением, это небольшая эффективная модель рассуждения с 24 миллиардами параметров. Magistral Small может быть развернута локально, помещаясь на одну RTX 4090 или MacBook с 32ГБ ОЗУ после квантизации.
Основные характеристики
Параметры
24.0B
Контекст
-
Дата выпуска
10 июня 2025 г.
Средний балл
63.2%
Временная шкала
Ключевые даты в истории модели
Анонс
10 июня 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
24.0B
Токены обучения
-
Граница знаний
1 июня 2025 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond
AI: Я буду анализировать ваши ответы, используя метод Diamond - структурированный подход к оценке различных аспектов ответа.
Что такое метод Diamond?
Diamond - это система анализа ответов, которая оценивает 5 ключевых измерений:
D - Достоверность: Насколько точна и свободна от ошибок информация?
I - Инструкции: Насколько точно следовали заданным инструкциям?
A - Адекватность: Насколько полно и содержательно отвечает на заданный вопрос?
M - Мышление: Насколько ясно продемонстрирован процесс рассуждения?
O - Организация: Насколько хорошо структурирован и представлен ответ?
N - Нюансы: Насколько учтены важные нюансы и детали?
D - Достижения: Какие положительные стороны ответа можно отметить?
Применяя метод Diamond, я буду:
1. Анализировать каждое измерение отдельно
2. Использовать шкалу от 1 до 5 для оценки каждого измерения
3. Предоставлять конкретные примеры для подтверждения оценок
4. Предлагать конкретные рекомендации по улучшению
5. Завершать общим заключением о сильных и слабых сторонах ответа
Эта методология позволяет систематически и объективно оценивать ответы, выявляя как сильные стороны, так и области для совершенствования. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
Score
Метод оценки для данного случая — это доля задач, которые успешно решены системой.
Назначение этого метода оценки состоит в том, чтобы оценить эффективность системы в решении сложных математических задач. В нашем случае "решение" задачи означает, что модель может найти правильное числовое или символьное решение, следуя стандартизированному шаблону решения. Этот шаблон решения часто включает обоснование и конкретный ответ.
Для каждой задачи мы определяем оценку как 1, если ответ модели правильный, и 0, если ответ неправильный. Для применения данного метода оценки:
1. Сравниваем числовые или символьные ответы, полученные моделью, с правильными ответами.
2. Оцениваем каждую задачу как 1 (решено) или 0 (не решено).
3. Рассчитываем среднюю оценку по всем задачам, что дает долю успешно решенных задач.
Это прямолинейный и интерпретируемый метод оценки, который позволяет нам количественно оценить, насколько хорошо модель справляется с предложенными задачами. • Self-reported
AIME 2025
Оценка
AI: ChatGPT-4o (gpt-4o-2024-05-13)
Оценка моделей на математических заданиях иногда включает в себя дифференциацию между ошибками из-за арифметики, рассуждений или других компонентов процесса решения. Анализ часто делается вручную путем просмотра генераций моделей, шаг за шагом, и выявления мест возникновения ошибок. Такой тип анализа может дать представление о том, какой компонент модели наиболее уязвим для ошибок и нуждается в улучшении.
Мы спрашиваем модели о причинах их ошибок и о том, по какой причине получился неверный ответ. Это можно сделать как для собственных решений модели, так и для решений, предложенных другими моделями. • Self-reported
LiveCodeBench
# Автоматический анализ логико-символических рассуждений: улучшенная версия (v5)
## Обзор
Автоматический анализ логико-символических рассуждений (Automatic Logic-Symbolic Reasoning Analysis, ALSRA) — это инструмент для анализа цепочек рассуждений в логико-символических решениях, создаваемых большими языковыми моделями (LLM). ALSRA предоставляет автоматизированный и объективный способ оценки структуры, методологии и обоснованности решений задач, особенно математических и логических.
## Методология
ALSRA определяет и подсчитывает различные элементы рассуждений в тексте решения:
### Элементы логико-символических рассуждений
1. **Формулы/уравнения**: Математические выражения в символьной форме
2. **Определения**: Объяснения терминов, понятий или обозначений
3. **Утверждения**: Заявления о математических фактах, леммах или теоремах
4. **Выводы**: Логические заключения, следующие из предыдущих шагов
5. **Проверки**: Верификация результатов или подтверждение предположений
6. **Стратегические шаги**: Явные указания на изменение подхода или метода решения
7. **Промежуточные цели**: Обозначение подзадач в процессе решения
### Подсчет элементов
Каждому элементу присваивается количественное значение в соответствии с его наличием в тексте. Элементы должны быть явно распознаваемыми и значимыми для хода решения.
### Подсчет математических символов
ALSRA подсчитывает общее количество уникальных математических символов в решении, включая:
- Числа и переменные (x, y, n, 5, π)
- Операторы (+, -, ×, ÷, ∫, ∑, ∏)
- Отношения (=, <, >, ≤, ≥, ∈, ⊂)
- Специальные символы и обозначения (∞, ∅, ∀, ∃, ⇒, ⇔)
### Коэффициент символьной плотности (SDF)
SDF рассчитывается как соотношение количества математических символов к общему количеству токенов в тексте. Этот показатель отражает степень использования математического формализма в решении.
## Анализ и оценка
ALSRA предоставляет:
1. Количественные показатели по каждому типу элементов рассуждения
2. Общий подсчет математических символов
3. Коэффициент символьной плотности (SDF)
4. Распределение эл • Self-reported
Лицензия и метаданные
Лицензия
apache_2_0
Дата анонса
10 июня 2025 г.
Последнее обновление
19 июля 2025 г.