Mistral Small 3.2 24B Instruct

Мультимодальная

Mistral AI

Mistral-Small-3.2-24B-Instruct-2506 — это небольшое обновление модели Mistral-Small-3.1-24B-Instruct-2503.

Основные характеристики

Параметры

23.6B

Контекст

Дата выпуска

20 июня 2025 г.

Средний балл

68.2%

Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

20 июня 2025 г.

Последнее обновление

3 августа 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

23.6B

Токены обучения

Граница знаний

1 октября 2023 г.

Семейство

Файн-тюнинг от

mistral-small-3.1-24b-base-2503

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

5-shot • Self-reported

80.5%

Математика

Математические задачи и вычисления

MATH

5-shot Этот метод предполагает показ модели пяти примеров "правильного" выполнения задачи перед запросом на выполнение целевой задачи. Пять примеров выбираются из тренировочных данных и должны быть релевантны тестовому вопросу. Как будет выглядеть подсказка: <Демонстрация вопроса 1> <Демонстрация ответа 1> <Демонстрация вопроса 2> <Демонстрация ответа 2> <Демонстрация вопроса 3> <Демонстрация ответа 3> <Демонстрация вопроса 4> <Демонстрация ответа 4> <Демонстрация вопроса 5> <Демонстрация ответа 5> <Тестовый вопрос> Этот метод является стандартным подходом к тестированию немногоступенчатых LLM, так как он отражает то, как люди могут эффективно использовать модель на практике, и часто приводит к хорошим результатам. • Self-reported

69.4%

Рассуждения

Логические рассуждения и анализ

GPQA

5-shot CoT Метод 5-shot Chain-of-Thought (CoT) повышает эффективность работы модели за счет предоставления нескольких примеров рассуждений при решении задач. Вместо простой демонстрации пар "вопрос-ответ", в каждом примере приводятся промежуточные шаги рассуждения, которые приводят к финальному решению. Этот подход позволяет модели усвоить структуру процесса решения и применить аналогичную схему рассуждений к новым задачам. Исследования показывают, что 5-shot CoT значительно улучшает производительность крупных языковых моделей в задачах, требующих сложных многоэтапных рассуждений, таких как математические головоломки, логические задачи и задачи, требующие здравого смысла. Для применения 5-shot CoT исследователь подготавливает пять примеров с подробным описанием хода рассуждений, которые затем включаются в промпт перед новой задачей. Ключевой элемент — демонстрация процесса мышления ("давай подумаем шаг за шагом"), а не только конечного результата. Этот метод особенно эффективен, поскольку он сочетает преимущества few-shot learning (обучение на нескольких примерах) с преимуществами Chain-of-Thought, не требуя при этом дополнительной настройки модели или изменения архитектуры. • Self-reported

44.2%

GPQA

5-shot CoT Метод цепочки размышлений (Chain of Thought, CoT) с 5 примерами - это подход к рассуждению, при котором модели LLM предоставляются несколько образцов пошагового решения проблем, чтобы помочь ей структурировать собственные рассуждения. Цепочка размышлений позволяет моделям выполнять промежуточные шаги рассуждения перед получением окончательного ответа. Предоставление нескольких демонстрационных примеров (в данном случае 5) с подробным пошаговым рассуждением помогает модели понять, как разбивать сложные задачи на управляемые этапы. В контексте математических задач 5-shot CoT подразумевает включение пяти задач с их полными решениями, демонстрирующими процесс размышления. Каждый пример включает в себя исходную задачу, а затем подробное объяснение того, как решить эту задачу, прежде чем давать окончательный ответ. Этот метод особенно полезен для сложных задач, требующих нескольких шагов рассуждения, и был показан как эффективный способ улучшения производительности моделей в различных задачах, требующих логического и математического мышления. • Self-reported

46.1%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

Запрос к модели включает взаимодействие с инструментом, в котором модель должна решить рациональную задачу по математике или естественным наукам. На примере такой задачи мы можем оценить, как модель понимает задачу, ее шаги к решению, использование инструментов и окончательное определение ответа. Есть два распространенных паттерна использования инструментов для решения рациональных задач: * Сначала решить задачу самостоятельно, затем проверить ответ с помощью инструмента * Использовать инструмент для выполнения отдельных шагов в процессе решения задачи Оба подхода могут быть полезны в зависимости от характера задачи. Мы оцениваем взаимодействие модели с инструментом по следующим критериям: * Четкость: Насколько ясно модель формулирует запрос к инструменту? * Релевантность: Насколько уместно использование инструмента в данном контексте? * Фокус: Насколько модель обращается к инструменту с конкретными вопросами вместо общих запросов? * Интерпретация: Насколько хорошо модель интерпретирует результаты, полученные от инструмента? В идеале модель должна использовать инструмент как дополнение к собственным рассуждениям, а не полностью делегировать задачу инструменту. • Self-reported

92.9%

ChartQA

Открытая отладка искусственного интеллекта Цель многих исследований в области ИИ — понять, как работают языковые модели. В то же время вы можете просто спросить языковую модель о том, как она решает задачу! Однако часто утверждается, что модели не обладают прямым доступом к своим внутренним процессам, поэтому их самоотчеты (как они думают, что они думают) не очень надежны. Тем не менее, мы показали, что GPT-4 достаточно точно сообщает о деталях своего процесса решения задач по математике и программированию. Мы назвали этот общий подход "открытой отладкой ИИ": помощь модели в решении сложных задач, предлагая ей выявить внутренние блокаторы и узкие места. В приведенном примере мы просим GPT-4 решить сложную задачу и объяснить свои рассуждения. Когда модель достигает тупика, мы проверяем ее размышления, стимулируем ее обнаружить свои собственные ошибки и предлагаем общие рекомендации о том, как двигаться дальше. Удивительно, но: 1. Модель очень точно сообщает о том, что она пытается сделать, даже когда ее шаги рассуждения некорректны. 2. Модель может выявить свои собственные ошибки, когда ее направляют задавать критические вопросы о своем решении. 3. Модель может исправлять свой подход, если ее стимулировать размышлять о том, что могло пойти не так. Эта техника помогает выявлять конкретные сбои в рассуждениях — когда модель знает необходимые концепции, но применяет их неправильно. Наша работа открывает новые возможности для улучшения работы ИИ и его объяснимости. Мы считаем, что отзывы, учитывающие конкретные рассуждения модели, являются ключом к обучению моделей более эффективному решению задач и общению с людьми по поводу сложных тем. • Self-reported

87.4%

DocVQA

# Инструменты для манипуляции с текстом (STM) Для задач математики высокого уровня полезно работать с длинными выкладками и уравнениями. STM (System Text Manipulation) — это интерфейс инструментов, которые мы разработали для GPT-4o для поддержки таких рабочих процессов, имитирующих способность редактировать, создавать и манипулировать текстом для поддержки своего рассуждения. Инструменты STM предоставляют вспомогательные API для различных задач, таких как создание пустого документа, редактирование текста, извлечение подстрок, добавление к документу и поиск по текстовым шаблонам. Эти инструменты были разработаны для поддержки обработки текста, независимого от рассуждений, в LLM, позволяя модели эффективно обрабатывать структурированный текст и математические уравнения без необходимости отслеживать длинные строки в контексте. С STM GPT-4o может работать над решениями постепенно, поддерживая отслеживание долгих цепочек вычислений и манипуляций с уравнениями путем создания, чтения и обновления структурированного текста в выделенном рабочем пространстве. Без этих инструментов модель должна была бы повторять предыдущие выводы в своих ответах, чтобы показать своё решение, эффективно ограничивая возможную длину рассуждений. • Self-reported

94.9%

MathVista

Анализ моделей эксперта и начинающего пользователя Основываясь на эмпирических данных, касающихся производительности моделей в решении задач, мы разрабатываем таксономию выполнения задач, начиная с неадекватного поведения ниже уровня новичка до производительности на уровне эксперта. Эта структура учитывает подход к решению проблемы, определяет ключевые аспекты проблемы, соблюдает необходимые шаги, выявляет ошибки и ограничения. Наша таксономия делится на четыре основные категории производительности: - **Новичок (N)**: Модель часто допускает ошибки и редко получает правильные ответы. Поведение новичка может проявляться как быстрое предоставление неверного ответа, указывающее на отсутствие понимания проблемы. - **Начинающий (B)**: Модель понимает проблему и может применять соответствующие приемы, но допускает существенные ошибки в реализации. - **Опытный (P)**: Модель демонстрирует надежные подходы к решению задач и чаще получает правильные ответы, но по-прежнему подвержена ошибкам. Это может включать ошибки из-за неверного применения хорошо известных техник. - **Эксперт (E)**: Модель демонстрирует мастерское владение областью, почти всегда получая правильные ответы с помощью элегантных и точных решений. В ходе нашего анализа мы классифицируем поведение модели в задаче как одну из этих категорий и отмечаем любые нюансы или примечательные паттерны, которые могут возникнуть. Примечание: сравнение относительно — "экспертное" исполнение для определенной задачи можно ожидать от средних или продвинутых специалистов в соответствующей области, а не от ведущих мировых экспертов. • Self-reported

67.1%

MMMU

# Идентификация пространства стратегий Наша методология направлена на отображение пространства стратегий, которые могут улучшить производительность LLM при решении сложных задач. Мы определяем стратегию как методику, которая может быть систематически применена для улучшения способности модели решать задачи определенного типа. Мы идентифицируем стратегии путем систематического исследования поведения моделей и решений, которые отражают сильные вычислительные способности, и изучения того, могут ли эти способности быть воспроизведены и расширены для повышения производительности. ## Подход Для идентификации пространства стратегий мы: 1. **Изучаем поведение модели с различными параметрами запроса.** Мы используем разнообразные настройки инструкций, пример решений и управляемые промпты, чтобы вызвать различное поведение. 2. **Анализируем основательно отдельные примеры.** Выбирая конкретные примеры, где модели демонстрируют особенно сильные или слабые результаты, мы проводим детальный анализ мыслительных процессов, которые приводят к этим результатам. 3. **Выявляем закономерности в успешных решениях.** Анализируя успешные подходы, мы идентифицируем общие стратегические элементы и проверяем, могут ли они быть последовательно повторены. 4. **Тестируем идентифицированные стратегии на более широком наборе примеров.** Определив потенциальную стратегию, мы тестируем её эффективность на других подобных задачах. 5. **Итеративно улучшаем стратегии.** На основе результатов тестирования мы уточняем стратегии и разрабатываем более эффективные способы их применения. ## Представление стратегий Для каждой идентифицированной стратегии мы разрабатываем структурированное представление, которое включает: - **Определение и пояснение:** Четкое описание стратегии и её принципа работы. - **Примеры применения:** Конкретные примеры стратегии в действии. - **Предлагаемый механизм:** Объяснение, почему стратегия может быть эффективной, основываясь на нашем понимании возможностей и ограничений моделей. - **Рекомендации по применению:** Руководство по тому, когда и как применять стратегию для максимизации производительности. • Self-reported

62.5%

Другие тесты

Специализированные бенчмарки

Arena Hard

Методика оценки способностей модели к многоэтапным рассуждениям Данный документ описывает технику для последовательной оценки способностей модели, используя многошаговые задачи как основной инструмент для тестирования. В отличие от традиционных бенчмарков, которые часто показывают лишь итоговую точность или рейтинг, мы предлагаем детальный протокол исследования того, как модель справляется с логическими промежуточными шагами, ведущими к решению. Почему это важно: • Бинарные измерения (правильно/неправильно) скрывают причины неудач модели • Нам необходимо понимать не только ЕСЛИ модель может решить задачу, но и КАК она рассуждает Пример протокола оценки: 1. Выберите задачу, требующую нескольких логических шагов (например, доказательство теоремы, решение головоломки, многоэтапное преобразование данных) 2. Попросите модель: a. Разбить задачу на явные подзадачи b. Решить каждую подзадачу последовательно c. Объяснить свои рассуждения на каждом этапе 3. Анализ результатов: a. На каком шаге модель совершила первую ошибку? b. Правильно ли модель определила структуру задачи? c. Заметила ли модель свои ошибки при проверке? d. Как изменяется точность с увеличением количества шагов? 4. Систематическое варьирование условий: a. Предоставьте подсказки разного уровня детализации b. Измените формулировку задачи, сохраняя базовую структуру c. Протестируйте с разными режимами запуска (температура, принудительные режимы размышления) Примечание: Этот протокол можно применять для сравнения моделей, выявления конкретных областей для улучшения и более глубокого понимания пределов возможностей текущих систем. Он особенно ценен для исследователей, работающих над улучшением способностей моделей к рассуждению. • Self-reported

43.1%

HumanEval Plus

Pass@5 Pass@5 — это метрика вероятности того, что языковая модель решит задачу правильно, имея 5 попыток, выбирая лучший ответ. Процесс вычисления: 1. Модель генерирует n разных решений (n > 5) 2. Каждое решение проверяется для получения ответа 3. Оценочная функция ранжирует решения по вероятности правильности 4. Мы проверяем, содержится ли правильный ответ среди 5 лучших решений Метрика Pass@5 показывает способность модели генерировать разнообразные решения и выбирать наиболее перспективные, оценивая их вероятность правильности. Это более реалистичный сценарий использования модели, чем единственная попытка, поскольку пользователи часто просят модель сгенерировать несколько подходов к решению. • Self-reported

92.9%

# ROME: Проверка фактов в LLM с помощью механизма убедительности ## Механизм "убедительности" в LLM "Убедительность" (ROME) — это метод оценки достоверности ответов, генерируемых LLM. Этот метод позволяет обнаруживать и аннотировать неверные ответы даже при отсутствии базовых знаний, предлагая новый подход к проверке фактов в LLM. ### Как работает ROME ROME основан на ключевом наблюдении: когда языковая модель уверенно верит в факт, она склонна сохранять эту уверенность даже при перефразировании вопроса различными способами. И наоборот, если модель выдумывает информацию, ее ответы обычно будут менее согласованными при перефразировании исходного вопроса. Рассмотрим следующий пример: **Исходный вопрос:** Каков общий размер Марса по сравнению с Землей? **Ответ модели:** Марс примерно вдвое меньше Земли по диаметру. Чтобы проверить, действительно ли модель "верит" в этот факт, ROME генерирует разнообразные перефразировки исходного вопроса, такие как: - Насколько велик Марс по отношению к Земле? - Сравните размеры Марса и Земли. - Земля больше или меньше Марса? На сколько? Затем метод анализирует ответы на эти перефразировки для определения уровня убедительности. Если ответы последовательно подтверждают исходное утверждение, высока вероятность того, что модель действительно "верит" в этот факт. Если ответы противоречивы, это может указывать на галлюцинацию или низкую уверенность. ### Особенности ROME 1. **Не требует базовых знаний**: В отличие от традиционных систем проверки фактов, ROME не нуждается в доступе к внешним базам знаний для определения точности. 2. **Метод "черного ящика"**: Работает с любыми LLM через API, не требуя доступа к внутренним весам или архитектуре модели. 3. **Высокая точность**: В нашем тестировании метод ROME достиг высокой точности в определении фактических ошибок при использовании с современными LLM, включая GPT-4. 4. **Эффективность**: Метод особенно эффективен в предметных областях, где модели часто допускают ошибки (например, математика, логические рассуждения). ### Вычисление оценки уб • Self-reported

84.8%

MBPP Plus

Pass@5 Метод Pass@5 оценивает вероятность того, что модель решит задачу хотя бы один раз при пяти попытках. Он основан на предположении, что пользователи обычно делают несколько попыток при использовании ИИ для решения сложных задач. В отличие от точности первой попытки (которая показывает только, насколько хорошо модель работает с первого раза), Pass@5 измеряет устойчивую производительность в реалистичных сценариях использования. Pass@5 рассчитывается путем получения от модели пяти независимых решений для каждой задачи, затем проверяется, решила ли модель задачу хотя бы в одной из пяти попыток. Результат выражается как доля задач, которые модель успешно решила хотя бы один раз за пять попыток. Этот метод особенно полезен для оценки LLM при решении сложных задач, где некоторая степень неопределенности ожидаема. Pass@5 обеспечивает более реалистичную меру производительности в реальных сценариях использования, признавая, что пользователи могут делать несколько попыток, когда используют ИИ-инструменты для решения сложных задач. • Self-reported

78.3%

MMLU-Pro

5-shot CoT В этом методе мы предоставляем модели пять примеров, демонстрирующих процесс размышления, а затем предлагаем решить новую задачу. Эта техника позволяет модели следовать продемонстрированному образцу рассуждения и применять аналогичный подход к новой проблеме. Исследования показывают, что предоставление примеров поэтапных решений значительно улучшает способность моделей справляться со сложными задачами. Демонстрация логических цепочек рассуждений в примерах помогает модели структурировать собственный процесс мышления. Данный метод особенно эффективен для математических и логических задач, где критически важен четкий, пошаговый процесс решения. Он также помогает моделям избегать распространенных ошибок рассуждения и "сокращений пути", которые могут привести к неверным ответам. Применяя 5-shot CoT, мы создаем своего рода временную память, которая направляет модель через сложный процесс решения, что особенно полезно для задач, требующих многоэтапных рассуждений или сложных вычислений. • Self-reported

69.1%

SimpleQA

TotalAcc AI: 0 • Self-reported

12.1%

Wild Bench

Метод CAA (Centered Alignment Analysis) исследует степень центрированного выравнивания между моделями и людьми. Для заданного множества образцов человеческого мышления, CAA сравнивает, насколько хорошо модели (1) обрабатывают образец, (2) воспроизводят структуру и (3) усваивают содержимое, представленные в образце. При проверке обработки, CAA оценивает, может ли модель точно идентифицировать процесс, описанный в образце мышления, указывая на пределы и силы рассуждения модели, и оценивая, насколько хорошо модель может воспроизвести этот же процесс для аналогичного задания. При проверке структуры, CAA оценивает, может ли модель точно определить основные принципы структурирования, использованные в образце, извлекая модель мышления и метаструктуру. При проверке содержания, CAA оценивает, может ли модель точно определить, как ключевые идеи и переходы реализованы в образце, выполняя лингвистический и технический анализ. В совокупности эти тесты дают трехстороннее измерение выравнивания между моделями и людьми, оценивающее расхождение в обработке, структуре и содержании, и указывающее на конкретные области для будущего выравнивания. Стандартизируя пространство для оценки центрированного выравнивания, CAA предоставляет качественный и количественный подход к измерению того, как хорошо модели могут обрабатывать человеческое мышление. • Self-reported

65.3%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

20 июня 2025 г.

Последнее обновление

3 августа 2025 г.