Mistral Small 3.1 24B Base

Мультимодальная

Mistral AI

Предварительно обученная базовая версия модели Mistral Small 3.1. Обладает улучшенными характеристиками работы с текстом, мультимодальным пониманием, многоязычными возможностями и расширенным контекстным окном в 128k токенов по сравнению с Mistral Small 3. Предназначена для дообучения.

Основные характеристики

Параметры

24.0B

Контекст

128.0K

Дата выпуска

17 марта 2025 г.

Средний балл

62.9%

Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

17 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

24.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.30

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

# A/B-тестирование для улучшения LLM с помощью переключения режимов размышления ## Введение Когда большие языковые модели (LLM) начали работать с задачами, требующими строгих рассуждений, исследователи заметили, что модели показывают лучшие результаты, когда их инструктируют "мыслить шаг за шагом". Это наблюдение привело к развитию методов подсказок, подталкивающих модели к более обстоятельному решению задач. Однако, как и многие другие техники подсказок, этот подход имеет два ключевых ограничения: 1. Он применяется универсально ко всем задачам, хотя модели могут достигать более высокой точности при разных подходах к разным типам задач. 2. Он не всегда оптимален с точки зрения вычислительной эффективности, поскольку промежуточные вычисления увеличивают объем генерируемого текста. В данной работе мы предлагаем оптимизированный подход, который позволяет модели динамически выбирать между различными "режимами размышления" в зависимости от задачи. Мы демонстрируем, что переключение между: - Прямым ответом - Пошаговым рассуждением - Верификацией результатов ...существенно улучшает общую производительность, особенно в задачах, требующих математических расчетов или сложных логических выводов. ## Методология ### Режимы размышления Мы определяем и сравниваем четыре основных режима размышления, которые могут использоваться языковыми моделями: 1. **Прямой режим**: Модель отвечает напрямую, без промежуточных шагов рассуждения. 2. **Пошаговый режим**: Модель разбивает сложную задачу на последовательность промежуточных шагов перед предоставлением окончательного ответа. 3. **Режим верификации**: Модель предлагает ответ, затем проверяет его правильность, потенциально исправляя ошибки. 4. **Гибридный режим**: Модель сначала определяет оптимальный режим для данной задачи, а затем применяет его. • Self-reported

81.0%

Рассуждения

Логические рассуждения и анализ

GPQA

точность • Self-reported

37.5%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

Точность CoT Мы проводим анализ эффективности модели при использовании метода Chain-of-Thought (CoT, цепочка рассуждений) для решения задач, требующих рассуждений. CoT предлагает модели не просто генерировать конечный ответ, но выполнять пошаговые рассуждения перед формулировкой ответа. Оценка выполняется следующим образом: 1. Задаем модели вопросы, требующие многошаговых рассуждений, и просим показать промежуточные шаги 2. Оцениваем не только конечный ответ, но и логичность и корректность рассуждений 3. Сравниваем точность ответов, полученных с использованием CoT, и ответов, полученных прямым выводом Целью данного анализа является измерение: - Способности модели разбивать сложные задачи на более простые шаги - Последовательности в рассуждениях модели - Степени улучшения точности благодаря пошаговым рассуждениям - Типов ошибок, которые могут возникать в процессе рассуждений • Self-reported

59.3%

Другие тесты

Специализированные бенчмарки

MMLU-Pro

0-shot CoT Метод размышления по цепочке без примеров (0-shot Chain-of-Thought, 0-shot CoT) побуждает модель решать задачи поэтапно, без предоставления конкретных примеров такого процесса рассуждения. Данный подход использует общие подсказки, такие как "Давай решим эту задачу шаг за шагом" или "Давай разберемся", чтобы стимулировать модель к выдаче подробного процесса рассуждения перед формулировкой окончательного ответа. Метод 0-shot CoT особенно полезен, когда нет возможности или желания предоставлять образцы рассуждений для конкретной задачи. Он обычно превосходит простые промпты без рассуждений, так как позволяет модели разбить сложную задачу на более управляемые подзадачи, что снижает вероятность ошибок при решении многоэтапных задач. Тем не менее, 0-shot CoT обычно уступает другим методам CoT, в которых используются примеры, поскольку модель не получает конкретного руководства о том, как наилучшим образом структурировать свои размышления для конкретной задачи. Из-за отсутствия примеров качество рассуждений зависит от способности модели самостоятельно определять подходящий способ анализа задачи. • Self-reported

56.0%

TriviaQA

5-shot • Self-reported

80.5%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

17 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Mistral Small 3.1 24B Base

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Pixtral-12B

Mistral Small 3 24B Instruct

Gemma 3 27B

Gemma 3 12B

Pixtral Large

Mistral Small

Devstral Small 1.1

DeepSeek VL2