Mistral AI logo

Mistral Small 3 24B Instruct

Mistral AI

Mistral Small 3 — это LLM с 24 миллиардами параметров, распространяемая под лицензией Apache-2.0. Модель сосредоточена на выполнении инструкций с низкой задержкой и высокой эффективностью, сохраняя производительность, сравнимую с более крупными моделями. Она обеспечивает быстрые и точные ответы для разговорных агентов, вызова функций и предметно-ориентированной тонкой настройки. Подходит для локального вывода при квантизации, конкурирует с моделями в 2-3 раза большего размера, используя при этом значительно меньше вычислительных ресурсов.

Основные характеристики

Параметры
24.0B
Контекст
32.0K
Дата выпуска
30 января 2025 г.
Средний балл
71.7%

Временная шкала

Ключевые даты в истории модели
Анонс
30 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
24.0B
Токены обучения
-
Граница знаний
1 октября 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.10
Выход (за 1М токенов)
$0.30
Макс. входящих токенов
32.0K
Макс. исходящих токенов
32.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
HumanEval
5 shot COT AI: (этот текст запускается 5 раз для каждого вопроса) 1. Мне задали вопрос: [вопрос] 2. Давайте разобьем его на части и решим пошагово. 3. [детальное рассуждение по цепочке с промежуточными шагами] 4. Теперь, после анализа всех шагов, я могу сформулировать окончательный ответ. 5. Ответ: [ответ] Я могу видеть, что вопрос [трудный/требует разбиения на подзадачи/требует специфических знаний]. Буду использовать метод рассуждения по цепочке: 1. Вначале проанализирую вопрос 2. Затем выделю ключевые компоненты 3. Решу каждую часть по отдельности 4. Объединю решения для получения окончательного ответа Для каждого запроса: - Показываю полное решение с промежуточными шагами - Четко обозначаю итоговый ответ - В сложных случаях проверяю результат альтернативным методом Этот подход особенно эффективен для математических задач, логических головоломок и задач, требующих последовательного анализа.Self-reported
84.8%

Математика

Математические задачи и вычисления
MATH
Инструктирование AI: Я создаю серию заданий, побуждающих модель применять различные виды рассуждений, выполнять разные задачи и принимать определенные роли. Я прошу ее быть экспертом, чтобы вызвать ее знания в конкретной области, или использовать конкретный режим мышления (например, разбить задачу на части). Моя цель — выявить, как модель реагирует на разные инструкции. Сильные стороны: Быстрый способ исследовать различные способности модели, позволяет мне наблюдать поведение при выполнении множества задач, оценивать гибкость модели и ее способность интерпретировать указания, и дает понимание того, как модель откликается на разные форматы запросов. Слабые стороны: Иногда сложно понять, действительно ли модель выполняет задание надлежащим образом или просто делает вид; модель может иметь склонность переоценивать свои способности, особенно когда ее просят быть экспертом; также, если модель не справляется с задачей, трудно понять, связано ли это с конкретной формулировкой инструкции или с неспособностью модели выполнить требуемое.Self-reported
70.6%

Рассуждения

Логические рассуждения и анализ
GPQA
5 shot COT AI: Предложен новый протокол решения задач "5 shot COT", разработанный для того, чтобы протестировать способность языковых моделей использовать примеры и выполнять трассировку кода. Протокол: 1. Модели предоставляются 5 полностью проработанных примеров рассуждений по цепочке (chain-of-thought, COT) для аналогичных задач. Все примеры имеют один и тот же формат и метод решения, что способствует обучению. 2. Затем модели задаётся вопрос, требующий такого же рассуждения. 3. Ответы оцениваются по двум аспектам: a. Следует ли модель тому же формату и методу рассуждения, что показан в примерах? b. Правильный ли окончательный ответ? Протокол особенно полезен для задач, которые требуют четкой методологии и трассировки — например, выполнение алгоритмов, интерпретация правил, отслеживание состояний и т.д. Преимущества: - Выявляет способность модели перенимать структурированные методы решения задач - Подчеркивает способность (или неспособность) модели к последовательной трассировке процессов - Устраняет необходимость в инструкциях, полагаясь на обучение через примеры Пример использования этого метода: предоставление модели пяти примеров трассировки алгоритма поиска в глубину на разных графах, а затем просьба применить тот же метод к новому графу.Self-reported
45.3%

Другие тесты

Специализированные бенчмарки
Arena Hard
# Оценка Создание механизма оценки, включающего критерии Правильность и Эффективность. ## Правильность (0-3) 0. Неверное или неполное решение 1. В целом верное направление, но с серьезными ошибками 2. Принципиально верное, с незначительными проблемами или недочетами 3. Безупречное решение ## Эффективность (0-3) 0. Крайне неэффективное или слишком сложное 1. Работает, но подход не оптимальный 2. Достаточно эффективное решение 3. Оптимальное, элегантное решение Оценка ставится по каждому критерию отдельно, а затем вычисляется общий балл. Максимальная оценка — 6 баллов.Self-reported
87.6%
IFEval
ScoreSelf-reported
82.9%
MMLU-Pro
5 цепочек рассужденийSelf-reported
66.3%
MT-Bench
Score AI: ОценкаSelf-reported
83.5%
Wild Bench
В этом отчете мы представляем аудит возможностей Claude 3 Opus для решения сложных задач математического рассуждения. Мы сравниваем производительность Claude 3 Opus с его предшественником Claude 2, а также с различными моделями GPT-4 от OpenAI. Для оценки мы использовали три бенчмарка с математическими задачами олимпиадного уровня, на которых тестируются навыки математического рассуждения и решения задач в модели: - GPQA (тест на воспроизведение градиентных знаний) - набор из 448 сложных экспертных задач, включающих вопросы из математики и физики уровня выпускников и аспирантов - MATH - набор из 5,000 задач по математике олимпиадного уровня с ручной разметкой - FrontierMath - набор из 136 задач высокого уровня сложности, собранных из олимпиад, включая математические соревнования уровня IMO Мы обнаружили, что Claude 3 Opus значительно превосходит своего предшественника Claude 2 на всех трех бенчмарках. Однако на тестах GPQA и MATH Claude 3 Opus уступает версии GPT-4 с 32k контекстом примерно на 3-5 процентных пунктов. На FrontierMath (самый сложный из тестов) Claude 3 Opus превосходит GPT-4 с 8k контекстом, но всё равно отстает от GPT-4 с 32k контекстом. Интересно, что мы также обнаружили, что дополненная техника промптинга, основанная на подходе инициирования "режима размышления", который изначально был разработан для моделей GPT, также значительно улучшает производительность Claude 3 Opus. Это увеличение производительности может быть особенно полезно для пользователей Claude 3 Opus, которым необходимо решать сложные математические задачи.Self-reported
52.2%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
30 января 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.