Mistral Small 3.1 24B Instruct

Мультимодальная

Mistral AI

Основываясь на Mistral Small 3 (2501), модель Mistral Small 3.1 (2503) добавляет современное понимание изображений и улучшает возможности работы с длинным контекстом до 128k токенов без ущерба для производительности при работе с текстом. С 24 миллиардами параметров эта модель достигает высочайшего уровня возможностей как в текстовых, так и в визуальных задачах.

Основные характеристики

Параметры

24.0B

Контекст

Дата выпуска

17 марта 2025 г.

Средний балл

64.0%

Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

17 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

24.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

## Attention Sink Аргумент внимания или внимание-погружение (attention sink) - это своего рода инициализация кэша KV, метод повышения производительности языковых моделей путем введения начальных токенов перед запросом, получающих ключи (K) и значения (V), которые постепенно падают в вычислениях модели внимания. Эти начальные токены создают "погружение" для внимания. Метод полезен для длинного контекста и для добавления неизменной информации, особенно при ограниченном окне внимания, и он помогает дополнять смещения позиционного кодирования для улучшения модельных способностей. В зависимости от содержания первых токенов, они могут даже выполнять роль инструкций подсказки для модели. В смысле инженерного решения, этот метод может помочь сохранить вычислительные ресурсы, позволяя уделять меньше внимания начальным токенам. • Self-reported

80.6%

Программирование

Тесты на навыки программирования

HumanEval

Standard — это традиционная настройка, в которой модель получает входные данные и генерирует выходные. Это служит контрольной точкой при сравнении с другими режимами. Ввод: [Запрос][Демонстрация (если имеется)][Тестовый вопрос] Вывод: [Ответ модели] • Self-reported

88.4%

MBPP

Стандартный AI: У нас разные точки зрения на свободу воли. Мне пришлось серьезно размышлять об этом с психологической, научной и философской точек зрения. Вы, кажется, верите, что свобода воли реальна. • Self-reported

74.7%

Математика

Математические задачи и вычисления

MATH

При использовании стандартного режима мы подсчитываем долю решённых задач, где правильный ответ был выбран в наиболее вероятном прогнозе модели. Это оценка производительности при обычном сэмплировании. Как и в случае с greedy decoding, этот режим измеряет, может ли модель решить задачу, когда она выбирает наиболее вероятное следующее слово на каждом шаге своего рассуждения. В стандартном режиме не разрешается использование никаких особых техник решения, таких как нули-инъекция или режим размышления, что позволяет измерить способность модели выполнять вычислительные задачи в обычных условиях. • Self-reported

69.3%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond, 5-shot CoT Diamond — это алгоритм для задач логического вывода, который сочетает в себе преимущества объяснительного мышления и многоэтапных рассуждений. Он работает путем генерации и оценки нескольких цепочек рассуждений с последующим синтезом итогового ответа. Алгоритм Diamond начинается с генерации пяти различных цепочек рассуждений Chain-of-Thought (CoT) для заданного вопроса, каждая из которых завершается ответом. Затем он предлагает LLM оценить правильность каждой цепочки, ранжировать их по достоверности и обосновать свой рейтинг. Наконец, он инструктирует LLM синтезировать итоговый ответ, опираясь на самые надежные цепочки рассуждений. Название "Diamond" отражает форму процесса: он начинается с одиночного запроса, расширяется до множества путей рассуждения, сужается через оценку, и наконец сходится к единому, отшлифованному ответу. Diamond показывает улучшение производительности по сравнению с базовыми методами на нескольких бенчмарках логического вывода, и анализ абляции подтверждает важность как генерации нескольких цепочек, так и метакогнитивного ранжирования для достижения максимальной эффективности. • Self-reported

46.0%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

CoT accuracy Оценка точности цепочки рассуждений (CoT) в математике оценивает, правильно ли модель выполняет все этапы в определенной задаче, а не только дает правильный конечный ответ. Высокая точность CoT демонстрирует, что модель не только получает правильные ответы, но и правильно рассуждает в процессе их получения. Для подсчета точности CoT нам нужен алгоритм, который может определить: "Является ли решение задачи математически корректным и полным?". Это сложная задача, поскольку существует множество правильных способов решения задачи, которые могут сильно отличаться по структуре. Поэтому мы будем применять простую эвристику: правильные решения дают правильные ответы, и неправильные решения, как правило, дают неправильные ответы. Конечно, существуют исключения (можно случайно получить правильный ответ из неверного решения или сделать незначительную ошибку при вычислении, что ведет к неправильному ответу из правильного подхода), но эта эвристика, как правило, работает хорошо. Используя эту эвристику, наш метод оценки точности CoT прост: мы проверяем, правилен ли конечный ответ, чтобы судить о решении. Если он правильный, мы оцениваем всю цепочку рассуждений как верную. • Self-reported

59.3%

Другие тесты

Специализированные бенчмарки

MMLU-Pro

5-shot CoT • Self-reported

66.8%

SimpleQA

TotalAcc, Correct Показатель TotalAcc измеряет, насколько точны окончательные ответы модели — выбрала ли она верный ответ из предоставленного набора вариантов в форматированных вопросах или дала ли правильный ответ в открытых вопросах. Используя этот показатель, мы вычисляем долю ответов, которые модель правильно решила для каждого задания в наборе данных. Высокий балл TotalAcc указывает на способность модели давать точные ответы на разнообразные вопросы. • Self-reported

10.4%

TriviaQA

5-shot • Self-reported

80.5%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

17 марта 2025 г.

Последнее обновление

19 июля 2025 г.