Microsoft logo

Phi 4 Mini

Microsoft

Phi 4 Mini Instruct — это легковесная открытая модель с 3,8 миллиардами параметров, построенная на синтетических данных и отфильтрованных веб-данных, специализирующаяся на высококачественном рассуждении. Она поддерживает контекстное окно длиной 128K токенов и усовершенствована для следования инструкциям и безопасности посредством контролируемого дообучения и прямой оптимизации предпочтений.

Основные характеристики

Параметры
3.8B
Контекст
-
Дата выпуска
1 февраля 2025 г.
Средний балл
65.4%

Временная шкала

Ключевые даты в истории модели
Анонс
1 февраля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
3.8B
Токены обучения
5.0T токенов
Граница знаний
1 июня 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
5-shotSelf-reported
69.1%
MMLU
5-shotSelf-reported
67.3%
TruthfulQA
MC2, 10-shot В этом методе мы используем MC2 (майнд-копирование) для повышения производительности базовой модели на сложных задачах в рамках парадигмы обучения с несколькими примерами (k-shot). В частности, мы исследуем настройку, где базовой модели дается доступ к k примерам, за которыми следует новый запрос. Мы сравниваем стандартную настройку, когда базовая модель напрямую отвечает на новый запрос, с подходом MC2, где базовая модель использует данные примеры для формирования нового "разума" (подобно настройке модели), который затем применяется для ответа на новый запрос. В 10-shot настройке мы вручную собираем и отбираем примеры, которые демонстрируют более высокую производительность или конкретные способности, чем непосредственно базовая модель, для задачи решения математических задач. Затем мы используем эти специально отобранные примеры для копирования разума, который будет применен к новому запросу. Этот подход особенно полезен для оценки преимуществ MC2 на задачах, требующих сложных математических рассуждений.Self-reported
66.4%
Winogrande
5-shot Задание использует формат few-shot для демонстрации моделям образцов ответов. 5-shot означает, что модели показываются 5 примеров для понимания требуемого формата вывода перед получением нового запроса. Этот подход помогает улучшить качество ответов, давая модели контекст и шаблон для формирования правильных ответов. В контексте машинного обучения термин "shot" относится к количеству примеров, предоставляемых модели для обучения или настройки. 5-shot означает, что для задачи предоставляется 5 примеров. Метод особенно эффективен при работе с языковыми моделями, поскольку позволяет "настраивать" их поведение через примеры вместо прямых инструкций, демонстрируя ожидаемые входные данные и соответствующие выходные результаты.Self-reported
67.0%

Математика

Математические задачи и вычисления
GSM8k
8-shot, CoT Метод 8-shot, CoT (цепочка размышлений) включает предоставление модели восьми примеров выполнения задачи с подробным объяснением хода решения, а затем запрос на решение новой задачи. Примеры демонстрируют пошаговый процесс рассуждения, обычно начинающийся с фразы "давай подумаем шаг за шагом", которая помогает модели структурировать свой ответ. Формат 8-shot означает, что модели предоставляется восемь полных примеров вопросов с соответствующими подробными ответами, показывающими, как правильно применять цепочку размышлений для решения задачи определенного типа. Когда модель затем получает новую задачу, она следует продемонстрированному шаблону, применяя аналогичную технику пошагового рассуждения для формирования своего ответа.Self-reported
88.6%
MATH
0-shot, CoT Вычисление без предварительной подготовки, с объяснением хода рассуждений AI: 0-shot, CoT Вычисление без предварительной подготовки, с объяснением хода рассужденийSelf-reported
64.0%
MGSM
5-shotSelf-reported
63.9%

Рассуждения

Логические рассуждения и анализ
BIG-Bench Hard
0-shot, CoT Система предлагает модели решить задачу без каких-либо дополнительных примеров, но побуждает её объяснять свои рассуждения шаг за шагом, прежде чем дать окончательный ответ. Это позволяет системе улавливать промежуточные шаги мышления модели.Self-reported
70.4%
GPQA
0-shot, CoT В этом методе мы предоставляем задачу модели без каких-либо примеров выполнения (0-shot) и просим ее мыслить цепочками рассуждений (Chain of Thought, CoT). Метод цепочки рассуждений подразумевает, что модель пошагово показывает ход своих мыслей при решении задачи, что помогает ей прийти к более точному ответу, особенно в сложных случаях. Вместо того, чтобы сразу выдать ответ, модель объясняет процесс своего рассуждения, постепенно приближаясь к решению. При 0-shot подходе мы не даем модели никаких предварительных примеров того, как решать подобные задачи, ожидая, что она справится, используя только свои предварительно полученные знания.Self-reported
25.2%

Другие тесты

Специализированные бенчмарки
ARC-C
10-shot AI: 10-shot решений отправляется модели, чтобы продемонстрировать ожидаемый формат и стиль ответов. Решения могут быть либо сгенерированы той же моделью в предыдущем запросе, либо получены из другого источника (например, от людей). Ключевые характеристики: - Включает образцы решений для 10 различных задач (в некоторых вариациях может быть 5-shot или другое количество примеров) - Может включать примеры рассуждений или только ответы - Даёт модели информацию о требуемом формате и подходе к решению задач - Может демонстрировать определённые техники рассуждения или процедуры решения Ожидаемое влияние: - Улучшает способность модели использовать требуемый формат - Позволяет модели понять желаемый уровень детализации рассуждений - Демонстрирует подходящие методы решения Обычно применяется в задачах, требующих соблюдения определённого формата или использования специфического метода рассуждения.Self-reported
83.7%
Arena Hard
Стандартная оценка AI: ответ модели на запрос с нулевыми ограничениями. Данный подход предназначен для измерения базовой способности модели отвечать на запрос. Мы просто передаем запрос модели и получаем ответ. Когда пользователи создают запрос, мы иногда можем применять определенные вероятностные настройки, такие как стохастичность и температура, однако для данной оценки мы устанавливаем температуру на 0, чтобы получить наиболее вероятный ответ модели. Применимость: универсальная оценка, применимая практически ко всем заданиям. Мы используем стандартную оценку для измерения базовой способности модели отвечать на запрос. Преимущества: базовое измерение способностей, простота. Недостатки: чувствительность к формулировке, модель может давать поверхностные или ложные ответы без дополнительных инструкций или ограничений.Self-reported
32.8%
BoolQ
В этом подходе мы сначала используем два примера, чтобы проиллюстрировать модели, что от нее ожидается. Эта техника помогает модели понять структуру вывода и тип рассуждений, которые мы хотим видеть, без необходимости явно указывать каждую деталь. Преимущество 2-shot подхода в том, что примеры могут быстро продемонстрировать желаемое поведение, что особенно полезно, когда мы хотим, чтобы модель следовала определенному формату или стилю рассуждения. Демонстрация нескольких примеров также может помочь уменьшить путаницу, поскольку модель видит несколько успешных выполнений задачи. Однако недостатком является то, что для некоторых сложных задач двух примеров может быть недостаточно для полной демонстрации всех нюансов требуемого поведения. Кроме того, если примеры выбраны неудачно или не отражают диапазон возможных входных данных, модель может сформировать искаженное представление о задаче.Self-reported
81.2%
MMLU-Pro
0-shot, CoT Метод 0-shot, CoT (цепочка размышлений без примеров) заключается в том, что модель получает задачу без каких-либо примеров решения и инструкцию размышлять шаг за шагом, прежде чем давать окончательный ответ. Этот подход побуждает модель показывать ход своих рассуждений, разбивая сложную задачу на более простые компоненты. В этом методе явно предлагается модели рассуждать, используя подсказки типа "Давай подумаем шаг за шагом" или "Рассуждая поэтапно". Такие инструкции заставляют модель генерировать промежуточные шаги рассуждения перед формулировкой окончательного ответа. Исследования показали, что даже без примеров решения задач (отсюда термин "0-shot") простое указание модели мыслить последовательно может значительно улучшить её производительность на сложных задачах, требующих многоэтапных рассуждений.Self-reported
52.8%
Multilingual MMLU
5-shotSelf-reported
49.3%
OpenBookQA
10-shot AI: Изучите решения модели и возьмите несколько примеров, где модель давала лучшие ответы. Начните с демонстрации задачи и того, как выглядят правильные решения. Затем покажите 10 разных подходов, которые модель может использовать для получения правильных ответов. Обычно используется для: - Объяснения решений задач - Логических рассуждений - Доказательств - Программирования - Обучения систем моделей сложным рассуждениям - Многошаговых решений - Обратных рассуждений - Демонстрации принципов и концепций Как это делать: 1. Выберите задачу или тип задач для тестирования. 2. Получите 10+ примеров решений от модели. 3. Проанализируйте решения и выделите различные подходы и стратегии. 4. Организуйте подходы от наиболее эффективных к менее эффективным. 5. Используйте эти примеры, чтобы показать модели разнообразие правильных подходов. 6. При общении с моделью приведите примеры правильных подходов и попросите ее решить новую проблему, используя похожие приемы. Пример подсказки: "Я покажу тебе 10 различных подходов к решению задач на доказательство геометрических теорем. Обрати внимание на разные методы и стратегии." Примечания: - Этот метод можно использовать для улучшения производительности модели путем демонстрации разнообразных подходов к решению. - Чем разнообразнее примеры, тем лучше модель сможет обобщить подходы. - Полезно при тестировании, может ли модель воспроизвести или адаптировать известные эффективные стратегии. - Особенно мощный для задач, требующих различных техник для получения правильного ответа.Self-reported
79.2%
PIQA
5-shot Метод нескольких примеров (few-shot) — это подход к обучению и использованию языковых моделей, при котором модели предоставляется несколько примеров выполнения задачи перед тем, как она должна выполнить новую задачу. В контексте 5-shot модели получают пять примеров (образцов) правильного выполнения задачи. Эти примеры демонстрируют желаемый формат и стиль ответа, помогая модели понять ожидания и контекст. Данный метод особенно полезен, когда: - Модель должна адаптироваться к специфической задаче без дополнительного обучения - Требуется определенный формат вывода - Необходимо продемонстрировать рассуждение или методологию В отличие от zero-shot подхода (без примеров) или one-shot (с одним примером), 5-shot обеспечивает более надежные результаты за счет большего количества образцов, из которых модель может извлечь закономерности. Исследования показывают, что производительность моделей часто улучшается с увеличением количества примеров до определенного порога, после которого наблюдается эффект насыщения или даже снижение эффективности из-за перегрузки контекста.Self-reported
77.6%
Social IQa
5-shotSelf-reported
72.5%

Лицензия и метаданные

Лицензия
mit
Дата анонса
1 февраля 2025 г.
Последнее обновление
19 июля 2025 г.