Mistral Small 3 24B Base
МультимодальнаяMistral Small 3 конкурентоспособна с более крупными моделями, такими как Llama 3.3 70B или Qwen 32B, и является отличной открытой альтернативой закрытым проприетарным моделям вроде GPT4o-mini. Mistral Small 3 сопоставима по качеству с Llama 3.3 70B instruct, при этом работает более чем в 3 раза быстрее на том же оборудовании.
Основные характеристики
Параметры
23.6B
Контекст
-
Дата выпуска
30 января 2025 г.
Средний балл
67.0%
Временная шкала
Ключевые даты в истории модели
Анонс
30 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
23.6B
Токены обучения
-
Граница знаний
1 октября 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
5-shot • Self-reported
Программирование
Тесты на навыки программирования
MBPP
Pass@1
Метрика Pass@1 измеряет, сколько раз модели удается решить задачу с первой попытки. Чтобы проверить, насколько хорошо модель решает задачу без множественных попыток, мы можем измерить долю ответов, которые были правильными с первого раза.
Для каждой задачи k:
- Мы просим модель дать один ответ Ak.
- Мы оцениваем, является ли Ak правильным (1 = правильно, 0 = неправильно).
Pass@1 = (Число задач, решенных с первой попытки) / (Общее число задач)
Эта метрика важна, поскольку она показывает, насколько пользователи могут доверять единственному ответу модели, не требуя нескольких попыток или проверки. Высокий показатель Pass@1 указывает на модель, которая надежно решает задачи с первого раза, что критически важно для многих реальных приложений. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
5-shot, maj@1
Для каждой задачи мы запрашивали модель 5 раз и выбирали ответ большинства (или любой из наиболее часто встречающихся ответов в случае ничьи). Майоритарное голосование может помочь нивелировать непоследовательность модели, которая возникает из-за дискретности процесса отбора токенов.
Эта стратегия запросов требует 5 вызовов модели на каждую задачу. • Self-reported
MATH
5-shot, MaJ • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
5-shot, CoT
В этом методе модели сначала предоставляется 5 примеров решения различных задач с использованием подхода "цепочки рассуждений" (Chain of Thought). Это позволяет модели изучить подробные шаги рассуждения перед тем, как она попытается решить новую задачу.
Этот метод объединяет мощные техники немногошотового обучения (few-shot learning) и цепочки рассуждений, чтобы максимизировать способность модели к решению сложных задач. Предоставляя несколько детальных примеров рассуждений, модель может выявить шаблоны решения задач и применить их к новым случаям.
5-shot, CoT особенно эффективен для задач, требующих многоэтапных рассуждений, таких как математические задачи, логические головоломки или задачи, требующие последовательного анализа. Примеры в контексте действуют как неявное руководство, демонстрируя модели, как структурировать свои мысли и разбивать сложные задачи на управляемые шаги. • Self-reported
Другие тесты
Специализированные бенчмарки
AGIEval
# Компонентное чтение
Компонентное чтение представляет собой процесс понимания компонентов текста для извлечения релевантной информации, необходимой для выполнения задачи. Например, при решении математической задачи сначала нужно выделить постановку задачи, затем выявить доступные переменные и выделить цель — то, что мы пытаемся найти.
## Пример пошагового процесса:
1. **Внимательно прочитать весь текст**:
- Начать с общего понимания текста.
2. **Выделить компоненты**:
- **Постановка задачи**: Определить, что именно описывается.
- **Переменные**: Выделить все ключевые переменные и их значения.
- **Цель**: Определить, что именно требуется найти.
3. **Структурировать информацию**:
- Организовать данные в понятный формат.
- Установить отношения между различными переменными.
4. **Проверить полноту**:
- Удостовериться, что выделены все важные компоненты.
- Убедиться, что не пропущена ключевая информация.
Компонентное чтение особенно полезно для задач, требующих тщательного извлечения информации, таких как математические задачи, научные тексты или технические спецификации. Оно помогает уменьшить когнитивную нагрузку путем разбиения сложного текста на управляемые фрагменты. • Self-reported
ARC-C
0-shot
AI: Способ, при котором модели предоставляется задача без каких-либо примеров или дополнительного контекста. Эти задачи тестируют базовые знания модели и понимание инструкций. Для задач, требующих специализированных знаний, более старые или меньшие модели могут затрудняться в 0-shot режиме, в то время как новые модели, обученные на более разнообразных и специализированных данных, часто могут справляться даже без дополнительных подсказок.
Пример: "Найдите сумму чисел от 1 до 100" без каких-либо дополнительных указаний. • Self-reported
MMLU-Pro
0-shot CoT
В этом подходе, основанном на методе "цепочка размышлений" (chain-of-thought), мы напрямую просим модель решить задачу, разбив её на этапы размышления, без предоставления примеров такого процесса.
Обычно используются подсказки вроде "Давай решать эту задачу шаг за шагом" или "Давай мыслить поэтапно", которые побуждают модель генерировать промежуточные рассуждения перед формулировкой окончательного ответа.
Этот метод эффективен для моделей, достаточно мощных, чтобы самостоятельно разрабатывать цепочки рассуждений. Он позволяет модели структурировать мышление без необходимости в обучающих примерах, что делает подход более гибким и менее зависимым от специфики конкретных примеров. • Self-reported
TriviaQA
5-shot
Мы используем несколько примеров для обеспечения более качественных демонстраций. Такое использование "k" примеров обычно называется k-shot промптингом. В данном случае мы проводим 5-shot промптинг, предоставляя модели 5 примеров демонстраций, прежде чем она генерирует вывод. Было показано, что увеличение количества примеров часто улучшает производительность за счет предоставления модели большего объема информации о задаче и ожидаемом формате ответа. Однако, по мере увеличения количества примеров, наблюдается эффект уменьшения предельной пользы, а очень большое количество примеров может даже привести к снижению производительности из-за ограничений контекстного окна или истощения внимания модели. • Self-reported
Лицензия и метаданные
Лицензия
apache_2_0
Дата анонса
30 января 2025 г.
Последнее обновление
19 июля 2025 г.