Mistral Small 3.1 24B Instruct
МультимодальнаяОсновываясь на Mistral Small 3 (2501), модель Mistral Small 3.1 (2503) добавляет современное понимание изображений и улучшает возможности работы с длинным контекстом до 128k токенов без ущерба для производительности при работе с текстом. С 24 миллиардами параметров эта модель достигает высочайшего уровня возможностей как в текстовых, так и в визуальных задачах.
Основные характеристики
Параметры
24.0B
Контекст
-
Дата выпуска
17 марта 2025 г.
Средний балл
64.0%
Временная шкала
Ключевые даты в истории модели
Анонс
17 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
24.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
## Attention Sink
Аргумент внимания или внимание-погружение (attention sink) - это своего рода инициализация кэша KV, метод повышения производительности языковых моделей путем введения начальных токенов перед запросом, получающих ключи (K) и значения (V), которые постепенно падают в вычислениях модели внимания. Эти начальные токены создают "погружение" для внимания. Метод полезен для длинного контекста и для добавления неизменной информации, особенно при ограниченном окне внимания, и он помогает дополнять смещения позиционного кодирования для улучшения модельных способностей. В зависимости от содержания первых токенов, они могут даже выполнять роль инструкций подсказки для модели.
В смысле инженерного решения, этот метод может помочь сохранить вычислительные ресурсы, позволяя уделять меньше внимания начальным токенам. • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Standard — это традиционная настройка, в которой модель получает входные данные и генерирует выходные. Это служит контрольной точкой при сравнении с другими режимами.
Ввод: [Запрос][Демонстрация (если имеется)][Тестовый вопрос]
Вывод: [Ответ модели] • Self-reported
MBPP
Стандартный
AI: У нас разные точки зрения на свободу воли. Мне пришлось серьезно размышлять об этом с психологической, научной и философской точек зрения. Вы, кажется, верите, что свобода воли реальна. • Self-reported
Математика
Математические задачи и вычисления
MATH
При использовании стандартного режима мы подсчитываем долю решённых задач, где правильный ответ был выбран в наиболее вероятном прогнозе модели. Это оценка производительности при обычном сэмплировании. Как и в случае с greedy decoding, этот режим измеряет, может ли модель решить задачу, когда она выбирает наиболее вероятное следующее слово на каждом шаге своего рассуждения. В стандартном режиме не разрешается использование никаких особых техник решения, таких как нули-инъекция или режим размышления, что позволяет измерить способность модели выполнять вычислительные задачи в обычных условиях. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond, 5-shot CoT
Diamond — это алгоритм для задач логического вывода, который сочетает в себе преимущества объяснительного мышления и многоэтапных рассуждений. Он работает путем генерации и оценки нескольких цепочек рассуждений с последующим синтезом итогового ответа.
Алгоритм Diamond начинается с генерации пяти различных цепочек рассуждений Chain-of-Thought (CoT) для заданного вопроса, каждая из которых завершается ответом. Затем он предлагает LLM оценить правильность каждой цепочки, ранжировать их по достоверности и обосновать свой рейтинг. Наконец, он инструктирует LLM синтезировать итоговый ответ, опираясь на самые надежные цепочки рассуждений.
Название "Diamond" отражает форму процесса: он начинается с одиночного запроса, расширяется до множества путей рассуждения, сужается через оценку, и наконец сходится к единому, отшлифованному ответу.
Diamond показывает улучшение производительности по сравнению с базовыми методами на нескольких бенчмарках логического вывода, и анализ абляции подтверждает важность как генерации нескольких цепочек, так и метакогнитивного ранжирования для достижения максимальной эффективности. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MMMU
CoT accuracy
Оценка точности цепочки рассуждений (CoT) в математике оценивает, правильно ли модель выполняет все этапы в определенной задаче, а не только дает правильный конечный ответ. Высокая точность CoT демонстрирует, что модель не только получает правильные ответы, но и правильно рассуждает в процессе их получения.
Для подсчета точности CoT нам нужен алгоритм, который может определить: "Является ли решение задачи математически корректным и полным?". Это сложная задача, поскольку существует множество правильных способов решения задачи, которые могут сильно отличаться по структуре.
Поэтому мы будем применять простую эвристику: правильные решения дают правильные ответы, и неправильные решения, как правило, дают неправильные ответы. Конечно, существуют исключения (можно случайно получить правильный ответ из неверного решения или сделать незначительную ошибку при вычислении, что ведет к неправильному ответу из правильного подхода), но эта эвристика, как правило, работает хорошо.
Используя эту эвристику, наш метод оценки точности CoT прост: мы проверяем, правилен ли конечный ответ, чтобы судить о решении. Если он правильный, мы оцениваем всю цепочку рассуждений как верную. • Self-reported
Другие тесты
Специализированные бенчмарки
MMLU-Pro
5-shot CoT • Self-reported
SimpleQA
TotalAcc, Correct
Показатель TotalAcc измеряет, насколько точны окончательные ответы модели — выбрала ли она верный ответ из предоставленного набора вариантов в форматированных вопросах или дала ли правильный ответ в открытых вопросах.
Используя этот показатель, мы вычисляем долю ответов, которые модель правильно решила для каждого задания в наборе данных. Высокий балл TotalAcc указывает на способность модели давать точные ответы на разнообразные вопросы. • Self-reported
TriviaQA
5-shot • Self-reported
Лицензия и метаданные
Лицензия
apache_2_0
Дата анонса
17 марта 2025 г.
Последнее обновление
19 июля 2025 г.