Mistral Small 3 24B Instruct

Name: Mistral Small 3 24B Instruct
Rating: 0.7 (8 reviews)
Author: Mistral AI

Mistral AI

Mistral Small 3 — это LLM с 24 миллиардами параметров, распространяемая под лицензией Apache-2.0. Модель сосредоточена на выполнении инструкций с низкой задержкой и высокой эффективностью, сохраняя производительность, сравнимую с более крупными моделями. Она обеспечивает быстрые и точные ответы для разговорных агентов, вызова функций и предметно-ориентированной тонкой настройки. Подходит для локального вывода при квантизации, конкурирует с моделями в 2-3 раза большего размера, используя при этом значительно меньше вычислительных ресурсов.

Основные характеристики

Параметры

24.0B

Контекст

32.0K

Дата выпуска

30 января 2025 г.

Средний балл

71.7%

API документация Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

30 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

24.0B

Токены обучения

Граница знаний

1 октября 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.30

Макс. входящих токенов

32.0K

Макс. исходящих токенов

32.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

5 shot COT AI: (этот текст запускается 5 раз для каждого вопроса) 1. Мне задали вопрос: [вопрос] 2. Давайте разобьем его на части и решим пошагово. 3. [детальное рассуждение по цепочке с промежуточными шагами] 4. Теперь, после анализа всех шагов, я могу сформулировать окончательный ответ. 5. Ответ: [ответ] Я могу видеть, что вопрос [трудный/требует разбиения на подзадачи/требует специфических знаний]. Буду использовать метод рассуждения по цепочке: 1. Вначале проанализирую вопрос 2. Затем выделю ключевые компоненты 3. Решу каждую часть по отдельности 4. Объединю решения для получения окончательного ответа Для каждого запроса: - Показываю полное решение с промежуточными шагами - Четко обозначаю итоговый ответ - В сложных случаях проверяю результат альтернативным методом Этот подход особенно эффективен для математических задач, логических головоломок и задач, требующих последовательного анализа. • Self-reported

84.8%

Математика

Математические задачи и вычисления

MATH

Инструктирование AI: Я создаю серию заданий, побуждающих модель применять различные виды рассуждений, выполнять разные задачи и принимать определенные роли. Я прошу ее быть экспертом, чтобы вызвать ее знания в конкретной области, или использовать конкретный режим мышления (например, разбить задачу на части). Моя цель — выявить, как модель реагирует на разные инструкции. Сильные стороны: Быстрый способ исследовать различные способности модели, позволяет мне наблюдать поведение при выполнении множества задач, оценивать гибкость модели и ее способность интерпретировать указания, и дает понимание того, как модель откликается на разные форматы запросов. Слабые стороны: Иногда сложно понять, действительно ли модель выполняет задание надлежащим образом или просто делает вид; модель может иметь склонность переоценивать свои способности, особенно когда ее просят быть экспертом; также, если модель не справляется с задачей, трудно понять, связано ли это с конкретной формулировкой инструкции или с неспособностью модели выполнить требуемое. • Self-reported

70.6%

Рассуждения

Логические рассуждения и анализ

GPQA

5 shot COT AI: Предложен новый протокол решения задач "5 shot COT", разработанный для того, чтобы протестировать способность языковых моделей использовать примеры и выполнять трассировку кода. Протокол: 1. Модели предоставляются 5 полностью проработанных примеров рассуждений по цепочке (chain-of-thought, COT) для аналогичных задач. Все примеры имеют один и тот же формат и метод решения, что способствует обучению. 2. Затем модели задаётся вопрос, требующий такого же рассуждения. 3. Ответы оцениваются по двум аспектам: a. Следует ли модель тому же формату и методу рассуждения, что показан в примерах? b. Правильный ли окончательный ответ? Протокол особенно полезен для задач, которые требуют четкой методологии и трассировки — например, выполнение алгоритмов, интерпретация правил, отслеживание состояний и т.д. Преимущества: - Выявляет способность модели перенимать структурированные методы решения задач - Подчеркивает способность (или неспособность) модели к последовательной трассировке процессов - Устраняет необходимость в инструкциях, полагаясь на обучение через примеры Пример использования этого метода: предоставление модели пяти примеров трассировки алгоритма поиска в глубину на разных графах, а затем просьба применить тот же метод к новому графу. • Self-reported

45.3%

Другие тесты

Специализированные бенчмарки

Arena Hard

# Оценка Создание механизма оценки, включающего критерии Правильность и Эффективность. ## Правильность (0-3) 0. Неверное или неполное решение 1. В целом верное направление, но с серьезными ошибками 2. Принципиально верное, с незначительными проблемами или недочетами 3. Безупречное решение ## Эффективность (0-3) 0. Крайне неэффективное или слишком сложное 1. Работает, но подход не оптимальный 2. Достаточно эффективное решение 3. Оптимальное, элегантное решение Оценка ставится по каждому критерию отдельно, а затем вычисляется общий балл. Максимальная оценка — 6 баллов. • Self-reported

87.6%

IFEval

Score • Self-reported

82.9%

MMLU-Pro

5 цепочек рассуждений • Self-reported

66.3%

MT-Bench

Score AI: Оценка • Self-reported

83.5%

Wild Bench

В этом отчете мы представляем аудит возможностей Claude 3 Opus для решения сложных задач математического рассуждения. Мы сравниваем производительность Claude 3 Opus с его предшественником Claude 2, а также с различными моделями GPT-4 от OpenAI. Для оценки мы использовали три бенчмарка с математическими задачами олимпиадного уровня, на которых тестируются навыки математического рассуждения и решения задач в модели: - GPQA (тест на воспроизведение градиентных знаний) - набор из 448 сложных экспертных задач, включающих вопросы из математики и физики уровня выпускников и аспирантов - MATH - набор из 5,000 задач по математике олимпиадного уровня с ручной разметкой - FrontierMath - набор из 136 задач высокого уровня сложности, собранных из олимпиад, включая математические соревнования уровня IMO Мы обнаружили, что Claude 3 Opus значительно превосходит своего предшественника Claude 2 на всех трех бенчмарках. Однако на тестах GPQA и MATH Claude 3 Opus уступает версии GPT-4 с 32k контекстом примерно на 3-5 процентных пунктов. На FrontierMath (самый сложный из тестов) Claude 3 Opus превосходит GPT-4 с 8k контекстом, но всё равно отстает от GPT-4 с 32k контекстом. Интересно, что мы также обнаружили, что дополненная техника промптинга, основанная на подходе инициирования "режима размышления", который изначально был разработан для моделей GPT, также значительно улучшает производительность Claude 3 Opus. Это увеличение производительности может быть особенно полезно для пользователей Claude 3 Opus, которым необходимо решать сложные математические задачи. • Self-reported

52.2%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

30 января 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Mistral Small 3 24B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Mistral NeMo Instruct

Magistral Small 2506

Devstral Small 1.1

Mistral Small

Codestral-22B

Mistral Small 3 24B Base

Pixtral-12B

Mistral Small 3.1 24B Instruct