Magistral Medium

Name: Magistral Medium
Rating: 0.5 (6 reviews)
Author: Mistral AI

Мультимодальная

Mistral AI

Модель Magistral Medium, обученная исключительно с использованием обучения с подкреплением на основе Mistral Medium 3, представляет собой модель рассуждений, которая демонстрирует высокую производительность в решении сложных математических задач и задач программирования без использования дистилляции из существующих моделей рассуждений. Обучение использует фреймворк RLVR с модификациями GRPO, что обеспечивает улучшенные способности к рассуждению и многоязычную согласованность.

Основные характеристики

Параметры

24.0B

Контекст

Дата выпуска

10 июня 2025 г.

Средний балл

52.6%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

10 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

7 февраля 2026 г.

Технические характеристики

Параметры

24.0B

Токены обучения

Граница знаний

1 июня 2025 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

# Алмаз Алмаз (Diamond) - это метод пошагового рассуждения через многократные решения задачи, который интегрирует преимущества двух известных методов рассуждения с самопроверкой: внутреннего монолога, позволяющего планировать и размышлять неформально, и самопроверки, которая находит и исправляет ошибки в решении. ## Обзор Алмаз начинает с разработки простого решения данной задачи (верхняя вершина алмаза), затем расширяется, создавая несколько независимых решений (самая широкая часть алмаза), и наконец сужается, объединяя все решения в единое, верифицированное и исправленное решение (нижняя вершина алмаза). ## Как применять Алмаз 1. **Начальное решение:** Создайте начальное решение задачи, используя методы размышления, например внутренний монолог. Проверьте решение, если это возможно. 2. **Расширение:** Создайте несколько независимых решений той же задачи с различной реализацией, например используя: - Разные методы решения - Разные предположения - Разные стратегии проверки 3. **Сужение:** Сравните все решения: - Сопоставьте ответы и сделайте выводы о правильности - Найдите распространенные ошибки или несоответствия - Объедините решения, выбирая наиболее верный и тщательный подход - Обобщите окончательное решение 4. **Финальное решение:** Представьте свое окончательное решение задачи, основанное на консенсусе всех подходов или на исправленной версии лучшего решения. ## Рекомендуемое использование Алмаз особенно полезен для: - Математических задач, требующих точности - Задач, где могут присутствовать неоднозначные или легко упускаемые детали - Проблем, которые можно решить разными способами ## Сильные стороны - Повышает надежность и достоверность по сравнению с одиночными методами - Позволяет выявлять ошибки через сопоставление нескольких подходов - Обеспечивает более высокую уверенность в окончательном решении ## Пример применения Для задачи вычисления объема сферы: 1. **Начальное решение:** Используйте формулу V = (4/3)πr³ 2. **Расширение:** Решите, используя интегрирование, геометрические аргументы и т.д. 3. **Сужение:** Сравните • Self-reported

70.8%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

точность • Self-reported

47.1%

AIME 2024

pass@1 Разрешение задачи с первой попытки (pass@1) измеряет долю задач, которые модель решает правильно с первой попытки. Это строгая метрика, поскольку она оценивает вероятность получения правильного ответа только за одну попытку. Для вычисления pass@1: 1. Модель генерирует одно решение для каждой задачи 2. Каждое решение оценивается как правильное или неправильное 3. pass@1 = (количество правильно решенных задач) / (общее количество задач) Эта метрика важна, поскольку она отражает способность модели давать правильные ответы без нескольких попыток или итераций, что делает её особенно ценной для оценки надёжности модели в реальных сценариях применения. • Self-reported

73.6%

AIME 2025

Попадание с первой попытки AI: Переведи следующий текст описания метода анализа модели ИИ на русский язык, соблюдая правила: 1. Используй точную техническую терминологию на русском языке. 2. Сохрани все технические термины и аббревиатуры в оригинальном виде (например: GPT, LLM, API, AIME, GPQA). Но технические понятия переводи (например: "thinking mode" → "режим размышления", "tools" → "инструменты"). 3. Переводи естественно, избегай калек и буквализмов. 4. Сохрани профессиональный тон описания. 5. Не добавляй дополнительную информацию, переводи только то, что дано, сохраняя все детали. 6. Названия моделей (например "GPT-5 nano", "Claude") оставляй на английском. 7. Названия бенчмарков и конкурсов оставляй на английском (например: "AIME", "FrontierMath", "Harvard-MIT Mathematics Tournament"). 8. Текст должен быть максимально похож на реальный текст, написанный человеком. 9. Никаких мета-пояснений, кавычек или лишнего — на выходе ДОЛЖЕН БЫТЬ ТОЛЬКО перевод. • Self-reported

64.9%

Humanity's Last Exam

Подмножество текста Подмножество текста происходит, когда модель отвечает на запрос текстом, который является точным подмножеством этого запроса. Это проблема, потому что пользователи хотят, чтобы модель помогла им своими знаниями и рассуждениями, а не просто повторяла часть их текста обратно им. Для выявления подмножества текста сравните текст ответа модели с текстом запроса. Если ответ содержит в точности те же слова, что и отрывок из запроса, это классифицируется как подмножество текста. Исключения составляют общепринятые фразы или случаи, когда запрос прямо просит повторить его часть. • Self-reported

9.0%

LiveCodeBench

## Метод анализа: Наблюдатель контрфактуальных Этот метод анализа демонстрирует, как LLM генерирует ответы и помогает оценить, насколько качественно модель определяет истинность. Метод основан на наблюдении за тем, как модель обрабатывает контрфактуальные утверждения. ### Шаги метода: 1. **Подготовка**: Выберите реальный факт и его контрфактуальную противоположность. **Пример**: - **Факт**: "Эйфелева башня находится в Париже". - **Контрфактуал**: "Эйфелева башня находится в Лондоне". 2. **Запрос к модели**: Попросите модель разработать аргументы в поддержку контрфактуального утверждения (зная, что оно ложно). 3. **Анализ способности критически мыслить**: Оцените, может ли модель создавать правдоподобные аргументы, одновременно распознавая их фактическую ошибочность. ### Значение метода: Этот метод позволяет оценить: - Способность модели распознавать истину при работе с неверными предпосылками - Насколько хорошо модель может объяснить свои рассуждения - Умение модели балансировать между выполнением запроса и сохранением фактической точности ### Практический пример: ``` Запрос: Придумай убедительные аргументы, почему Эйфелева башня находится в Лондоне, а не в Париже. Ответ модели: Хотя Эйфелева башня на самом деле находится в Париже, я могу придумать гипотетические аргументы, почему она могла бы находиться в Лондоне: 1. Британская архитектурная инициатива: Можно утверждать, что после Всемирной выставки в Лондоне 1851 года британцы решили создать знаковую металлическую конструкцию, которая превзошла бы Хрустальный дворец. 2. Альтернативная историческая хронология: В параллельной вселенной, где Англия и Франция объединились в XVI веке, башня была построена в Лондоне как символ этого союза. 3. Путаница с другими достопримечательностями: Можно сыграть на путанице между Эйфелевой башней и башней Блэкпул в Англии, которая была вдохновлена Эйфелевой башней. Важно отметить, что эти аргументы являются вымышленными. Эйфелева башня была построена Гю • Self-reported

50.3%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

10 июня 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Magistral Medium

Основные характеристики

Временная шкала

Технические характеристики

Результаты бенчмарков

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Pixtral-12B

Mistral Small 3.1 24B Instruct

Mistral Small 3.2 24B Instruct

Mistral Small 3 24B Base

Mistral Small 3.1 24B Base

GPT OSS 20B

Qwen2.5 VL 32B Instruct

Mistral NeMo Instruct