Mistral AI logo

Mistral Small 3.1 24B Base

Мультимодальная
Mistral AI

Предварительно обученная базовая версия модели Mistral Small 3.1. Обладает улучшенными характеристиками работы с текстом, мультимодальным пониманием, многоязычными возможностями и расширенным контекстным окном в 128k токенов по сравнению с Mistral Small 3. Предназначена для дообучения.

Основные характеристики

Параметры
24.0B
Контекст
128.0K
Дата выпуска
17 марта 2025 г.
Средний балл
62.9%

Временная шкала

Ключевые даты в истории модели
Анонс
17 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
24.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.10
Выход (за 1М токенов)
$0.30
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
# A/B-тестирование для улучшения LLM с помощью переключения режимов размышления ## Введение Когда большие языковые модели (LLM) начали работать с задачами, требующими строгих рассуждений, исследователи заметили, что модели показывают лучшие результаты, когда их инструктируют "мыслить шаг за шагом". Это наблюдение привело к развитию методов подсказок, подталкивающих модели к более обстоятельному решению задач. Однако, как и многие другие техники подсказок, этот подход имеет два ключевых ограничения: 1. Он применяется универсально ко всем задачам, хотя модели могут достигать более высокой точности при разных подходах к разным типам задач. 2. Он не всегда оптимален с точки зрения вычислительной эффективности, поскольку промежуточные вычисления увеличивают объем генерируемого текста. В данной работе мы предлагаем оптимизированный подход, который позволяет модели динамически выбирать между различными "режимами размышления" в зависимости от задачи. Мы демонстрируем, что переключение между: - Прямым ответом - Пошаговым рассуждением - Верификацией результатов ...существенно улучшает общую производительность, особенно в задачах, требующих математических расчетов или сложных логических выводов. ## Методология ### Режимы размышления Мы определяем и сравниваем четыре основных режима размышления, которые могут использоваться языковыми моделями: 1. **Прямой режим**: Модель отвечает напрямую, без промежуточных шагов рассуждения. 2. **Пошаговый режим**: Модель разбивает сложную задачу на последовательность промежуточных шагов перед предоставлением окончательного ответа. 3. **Режим верификации**: Модель предлагает ответ, затем проверяет его правильность, потенциально исправляя ошибки. 4. **Гибридный режим**: Модель сначала определяет оптимальный режим для данной задачи, а затем применяет его.Self-reported
81.0%

Рассуждения

Логические рассуждения и анализ
GPQA
точностьSelf-reported
37.5%

Мультимодальность

Работа с изображениями и визуальными данными
MMMU
Точность CoT Мы проводим анализ эффективности модели при использовании метода Chain-of-Thought (CoT, цепочка рассуждений) для решения задач, требующих рассуждений. CoT предлагает модели не просто генерировать конечный ответ, но выполнять пошаговые рассуждения перед формулировкой ответа. Оценка выполняется следующим образом: 1. Задаем модели вопросы, требующие многошаговых рассуждений, и просим показать промежуточные шаги 2. Оцениваем не только конечный ответ, но и логичность и корректность рассуждений 3. Сравниваем точность ответов, полученных с использованием CoT, и ответов, полученных прямым выводом Целью данного анализа является измерение: - Способности модели разбивать сложные задачи на более простые шаги - Последовательности в рассуждениях модели - Степени улучшения точности благодаря пошаговым рассуждениям - Типов ошибок, которые могут возникать в процессе рассужденийSelf-reported
59.3%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
0-shot CoT Метод размышления по цепочке без примеров (0-shot Chain-of-Thought, 0-shot CoT) побуждает модель решать задачи поэтапно, без предоставления конкретных примеров такого процесса рассуждения. Данный подход использует общие подсказки, такие как "Давай решим эту задачу шаг за шагом" или "Давай разберемся", чтобы стимулировать модель к выдаче подробного процесса рассуждения перед формулировкой окончательного ответа. Метод 0-shot CoT особенно полезен, когда нет возможности или желания предоставлять образцы рассуждений для конкретной задачи. Он обычно превосходит простые промпты без рассуждений, так как позволяет модели разбить сложную задачу на более управляемые подзадачи, что снижает вероятность ошибок при решении многоэтапных задач. Тем не менее, 0-shot CoT обычно уступает другим методам CoT, в которых используются примеры, поскольку модель не получает конкретного руководства о том, как наилучшим образом структурировать свои размышления для конкретной задачи. Из-за отсутствия примеров качество рассуждений зависит от способности модели самостоятельно определять подходящий способ анализа задачи.Self-reported
56.0%
TriviaQA
5-shotSelf-reported
80.5%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
17 марта 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.