Mistral AI logo

Mistral Small 3.1 24B Instruct

Мультимодальная
Mistral AI

Основываясь на Mistral Small 3 (2501), модель Mistral Small 3.1 (2503) добавляет современное понимание изображений и улучшает возможности работы с длинным контекстом до 128k токенов без ущерба для производительности при работе с текстом. С 24 миллиардами параметров эта модель достигает высочайшего уровня возможностей как в текстовых, так и в визуальных задачах.

Основные характеристики

Параметры
24.0B
Контекст
-
Дата выпуска
17 марта 2025 г.
Средний балл
64.0%

Временная шкала

Ключевые даты в истории модели
Анонс
17 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
24.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
## Attention Sink Аргумент внимания или внимание-погружение (attention sink) - это своего рода инициализация кэша KV, метод повышения производительности языковых моделей путем введения начальных токенов перед запросом, получающих ключи (K) и значения (V), которые постепенно падают в вычислениях модели внимания. Эти начальные токены создают "погружение" для внимания. Метод полезен для длинного контекста и для добавления неизменной информации, особенно при ограниченном окне внимания, и он помогает дополнять смещения позиционного кодирования для улучшения модельных способностей. В зависимости от содержания первых токенов, они могут даже выполнять роль инструкций подсказки для модели. В смысле инженерного решения, этот метод может помочь сохранить вычислительные ресурсы, позволяя уделять меньше внимания начальным токенам.Self-reported
80.6%

Программирование

Тесты на навыки программирования
HumanEval
Standard — это традиционная настройка, в которой модель получает входные данные и генерирует выходные. Это служит контрольной точкой при сравнении с другими режимами. Ввод: [Запрос][Демонстрация (если имеется)][Тестовый вопрос] Вывод: [Ответ модели]Self-reported
88.4%
MBPP
Стандартный AI: У нас разные точки зрения на свободу воли. Мне пришлось серьезно размышлять об этом с психологической, научной и философской точек зрения. Вы, кажется, верите, что свобода воли реальна.Self-reported
74.7%

Математика

Математические задачи и вычисления
MATH
При использовании стандартного режима мы подсчитываем долю решённых задач, где правильный ответ был выбран в наиболее вероятном прогнозе модели. Это оценка производительности при обычном сэмплировании. Как и в случае с greedy decoding, этот режим измеряет, может ли модель решить задачу, когда она выбирает наиболее вероятное следующее слово на каждом шаге своего рассуждения. В стандартном режиме не разрешается использование никаких особых техник решения, таких как нули-инъекция или режим размышления, что позволяет измерить способность модели выполнять вычислительные задачи в обычных условиях.Self-reported
69.3%

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond, 5-shot CoT Diamond — это алгоритм для задач логического вывода, который сочетает в себе преимущества объяснительного мышления и многоэтапных рассуждений. Он работает путем генерации и оценки нескольких цепочек рассуждений с последующим синтезом итогового ответа. Алгоритм Diamond начинается с генерации пяти различных цепочек рассуждений Chain-of-Thought (CoT) для заданного вопроса, каждая из которых завершается ответом. Затем он предлагает LLM оценить правильность каждой цепочки, ранжировать их по достоверности и обосновать свой рейтинг. Наконец, он инструктирует LLM синтезировать итоговый ответ, опираясь на самые надежные цепочки рассуждений. Название "Diamond" отражает форму процесса: он начинается с одиночного запроса, расширяется до множества путей рассуждения, сужается через оценку, и наконец сходится к единому, отшлифованному ответу. Diamond показывает улучшение производительности по сравнению с базовыми методами на нескольких бенчмарках логического вывода, и анализ абляции подтверждает важность как генерации нескольких цепочек, так и метакогнитивного ранжирования для достижения максимальной эффективности.Self-reported
46.0%

Мультимодальность

Работа с изображениями и визуальными данными
MMMU
CoT accuracy Оценка точности цепочки рассуждений (CoT) в математике оценивает, правильно ли модель выполняет все этапы в определенной задаче, а не только дает правильный конечный ответ. Высокая точность CoT демонстрирует, что модель не только получает правильные ответы, но и правильно рассуждает в процессе их получения. Для подсчета точности CoT нам нужен алгоритм, который может определить: "Является ли решение задачи математически корректным и полным?". Это сложная задача, поскольку существует множество правильных способов решения задачи, которые могут сильно отличаться по структуре. Поэтому мы будем применять простую эвристику: правильные решения дают правильные ответы, и неправильные решения, как правило, дают неправильные ответы. Конечно, существуют исключения (можно случайно получить правильный ответ из неверного решения или сделать незначительную ошибку при вычислении, что ведет к неправильному ответу из правильного подхода), но эта эвристика, как правило, работает хорошо. Используя эту эвристику, наш метод оценки точности CoT прост: мы проверяем, правилен ли конечный ответ, чтобы судить о решении. Если он правильный, мы оцениваем всю цепочку рассуждений как верную.Self-reported
59.3%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
5-shot CoTSelf-reported
66.8%
SimpleQA
TotalAcc, Correct Показатель TotalAcc измеряет, насколько точны окончательные ответы модели — выбрала ли она верный ответ из предоставленного набора вариантов в форматированных вопросах или дала ли правильный ответ в открытых вопросах. Используя этот показатель, мы вычисляем долю ответов, которые модель правильно решила для каждого задания в наборе данных. Высокий балл TotalAcc указывает на способность модели давать точные ответы на разнообразные вопросы.Self-reported
10.4%
TriviaQA
5-shotSelf-reported
80.5%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
17 марта 2025 г.
Последнее обновление
19 июля 2025 г.