Phi-3.5-mini-instruct

Microsoft

Phi-3.5-mini-instruct — это модель с 3,8 миллиардами параметров, которая поддерживает до 128 тысяч токенов контекстного окна и обладает улучшенными многоязычными возможностями для более чем 20 языков. Модель прошла дополнительное обучение и пост-обучение в области безопасности для улучшения следования инструкциям, рассуждений, математических вычислений и генерации кода. Она идеально подходит для сред с ограничениями по памяти или задержкам и использует лицензию MIT.

Основные характеристики

Параметры

3.8B

Контекст

128.0K

Дата выпуска

23 августа 2024 г.

Средний балл

58.7%

API документация Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

23 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

3.8B

Токены обучения

3.4T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.10

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

5-shot 1. Исследователь предоставляет модели 5 задач вместе с решениями для них и объяснениями. 2. Затем исследователь предоставляет модели новую задачу для решения, в том же формате, что и 5 примеров. 3. Эффективность 5-shot позволяет оценить, насколько хорошо модель может освоить определенный тип рассуждений, наблюдая несколько примеров. 4. Этот метод можно использовать для тестирования различных типов рассуждений с помощью различных примеров (например, базовое программирование, доказательства, математика). 5. 5-shot дает более точную оценку способности модели следовать определенным шаблонам рассуждений, чем zero-shot. • Self-reported

69.4%

MMLU

5-shot оценка Мы также оцениваем модели на стандартных бенчмарках, используя другой протокол, 5-shot оценку, и рассматриваем полезность примеров в контексте вопросов. На рисунке 3 показаны результаты. Во всех бенчмарках (кроме ARC Easy) примеры приводят к устойчивым улучшениям по сравнению с 0-shot. Мы наблюдаем постоянное ранжирование моделей в пределах семейства Claude, где производительность увеличивается с размером модели. И наоборот, для семейства GPT мы отмечаем различное ранжирование в зависимости от задачи. Мы также оцениваем, как меняется производительность от количества примеров (от 0 до 5), что показано на рисунке 4. Большинство моделей значительно выигрывают от первого примера, с продолжающимся, но уменьшающимся ростом производительности при добавлении дополнительных примеров. Однако мы наблюдаем заметные различия между семействами моделей. Семейство GPT показывает более высокую производительность в 0-shot режиме, но меньший рост при добавлении примеров, в то время как семейство Claude демонстрирует более низкую производительность в 0-shot режиме, но получает большую пользу от примеров. Эти результаты предполагают компромисс между 0-shot способностями и потенциалом для улучшения с помощью примеров. Наконец, в приложении F мы также исследуем, как вариации в дизайне промпта влияют на производительность при few-shot обучении. • Self-reported

69.0%

TruthfulQA

10-shot Данный метод предполагает предоставление модели десяти примеров (10 заданий с решениями) для того, чтобы она могла лучше понять задачу перед решением новой проблемы. Эти примеры обычно включают в себя разбор похожих задач с подробными решениями, что помогает модели выявить шаблоны и стратегии, применимые к текущей задаче. 10-shot особенно полезен для сложных задач, где прямое решение без предварительного ознакомления с аналогичными примерами может быть затруднительным. Метод обеспечивает модели контекстуальное понимание формата ожидаемого решения и типичных подходов к решению задач определенного класса. В отличие от zero-shot (решение без примеров) и few-shot (с несколькими примерами), 10-shot предоставляет более обширный набор примеров, что значительно повышает способность модели к обобщению и применению соответствующих методов решения. • Self-reported

64.0%

Winogrande

5-shot • Self-reported

68.5%

Программирование

Тесты на навыки программирования

HumanEval

0-shot AI: Выполни действие, основываясь только на данной инструкции. Мы обращаемся к этому как к «0-shot» подходу, поскольку модель не получает примеров для выполнения задачи. Такой подход аналогичен классическим работам по zero-shot трансферу, где система должна выполнить задачу без каких-либо примеров того, как это делать. В некоторых случаях, этот подход может быть предпочтительнее, так как он позволяет избежать путаницы из-за примеров, которые могут быть неподходящими, излишними или неясными. В разделе анализа мы отмечаем, что 0-shot условие дает более низкие результаты по сравнению с обычным примером для GPT-4, но обеспечивает значительно лучшее понимание задания. Поэтому мы рекомендуем использовать этот метод, когда точность выполнения задания важнее, чем общее качество ответа. • Self-reported

62.8%

MBPP

3-shot • Self-reported

69.6%

Математика

Математические задачи и вычисления

GSM8k

8-shot chain-of-thought • Self-reported

86.2%

MATH

0-shot chain-of-thought AI: 0-shot chain-of-thought • Self-reported

48.5%

MGSM

0-shot chain-of-thought AI: 0-shot chain-of-thought • Self-reported

47.9%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

0-shot chain-of-thought AI: 0-shot chain-of-thought • Self-reported

69.0%

GPQA

0-shot chain-of-thought AI: В режиме нулевого обучения с цепочкой рассуждений (0-shot chain-of-thought) искусственный интеллект решает проблему, используя пошаговые рассуждения без примеров того, как решать подобные задачи. Модель формирует промежуточные шаги рассуждения перед предоставлением окончательного ответа. Этот подход особенно полезен для математических, логических и рассуждательных задач, где модель должна разбить сложную проблему на последовательность более простых шагов. • Self-reported

30.4%

Другие тесты

Специализированные бенчмарки

ARC-C

10-попыточный • Self-reported

84.6%

Arena Hard

стандартная оценка • Self-reported

37.0%

BoolQ

2-shot В этом подходе модель сначала видит несколько примеров (обычно два) решения подобных задач, что помогает ей понять формат и способ решения, прежде чем она попытается решить текущую задачу. Это форма быстрого обучения в контексте, которая позволяет модели адаптировать свои ответы на основе продемонстрированных примеров. • Self-reported

78.0%

GovReport

стандартная оценка • Self-reported

25.9%

MEGA MLQA

стандартная оценка • Self-reported

61.7%

MEGA TyDi QA

стандартная оценка • Self-reported

62.2%

MEGA UDPOS

стандартная оценка • Self-reported

46.5%

MEGA XCOPA

стандартная оценка • Self-reported

63.1%

MEGA XStoryCloze

стандартная оценка • Self-reported

73.5%

MMLU-Pro

0-shot chain-of-thought AI: Метод 0-shot chain-of-thought (0-shot CoT) побуждает модель показывать промежуточные шаги рассуждения перед предоставлением окончательного ответа, не используя при этом примеры. Это достигается путем добавления простой подсказки, такой как "Давай рассуждать шаг за шагом", к вопросу. По сравнению с обычными 0-shot промптами, которые запрашивают прямой ответ, 0-shot CoT улучшает производительность на задачах, требующих сложных рассуждений, особенно для больших языковых моделей. Хотя 0-shot CoT не так эффективен, как few-shot CoT (где модели показывают примеры поэтапных рассуждений), он значительно проще в применении, поскольку не требует создания примеров рассуждений для каждой новой задачи. Простота этого метода сделала его стандартным инструментом для улучшения производительности в задачах рассуждения. • Self-reported

47.4%

MMMLU

5-shot оценка Есть несколько способов оценки современных языковых моделей (LLM) на новых задачах. Один из таких подходов, который мы использовали в этой статье, - это «k-shot оценка»: модели предоставляется k примеров выполнения задачи перед тем, как она попытается решить новый пример. Мы называем это «5-shot» оценкой, когда модели даются 5 примеров. Как это работает? Для демонстрации, вот несколько примеров разрешенного нами k-shot запроса для моделей: Задача состоит в определении того, является ли дискуссия в диалоге между агентами ИИ конструктивной или обсуждение представляет собой «порочный спор». Для Claude и GPT-4, наш запрос начинается с краткого описания задачи и инструкций, а затем предоставляются k=5 примеров диалогов с правильными ответами. Затем модель тестируется на новом диалоге. Таким образом, k-shot оценка позволяет нам оценить, насколько хорошо модель может обобщить решение задачи на основе ограниченного количества примеров, предоставленных ей. Это особенно полезно для понимания способности LLM к обучению в контексте. • Self-reported

55.4%

OpenBookQA

10-шотный AI: 10-шотный • Self-reported

79.2%

PIQA

5-shot Учитывая набор из 5 задач и ответов LLM для каждой задачи, определите, на какие из задач LLM представил правильные ответы. Сначала, для каждой задачи тщательно решите проблему самостоятельно и определите правильный ответ. Тщательно проанализируйте промежуточные шаги модели и итоговый ответ, чтобы определить, верно ли решение модели. Затем сравните решение модели с вашим и выявите любые несоответствия. Выделяйте ошибки следующим образом: 1. Фактические ошибки — модель делает фактически неверное утверждение 2. Концептуальные ошибки — модель использует неверные понятия, методы, доказательства или применяет верные понятия неправильным образом 3. Вычислительные ошибки — модель допускает ошибки в вычислениях 4. Логические ошибки — в рассуждениях модели присутствуют логические ошибки 5. Неполные решения — модель предоставляет неполный ответ После анализа ответов на все 5 задач, перечислите номера задач, к которым модель дала полностью правильные ответы. • Self-reported

81.0%

Qasper

стандартная оценка • Self-reported

41.9%

QMSum

стандартная оценка • Self-reported

21.3%

RepoQA

Среднее • Self-reported

77.0%

RULER

128k AI: This paper proposes the use of large context windows (128K tokens) to allow language models like GPT-4 to process and utilize large amounts of relevant information at once, which can dramatically enhance performance on difficult reasoning tasks. Description of the method: When faced with a complex problem, the 128K approach involves: 1. First gathering extensive high-quality relevant information (examples, theorems, techniques, etc.) 2. Structuring this information so the model can readily access it 3. Providing the problem along with all this context in a single prompt 4. Having the model reason through the problem with all resources available simultaneously This method leverages the model's ability to attend to any part of the 128K context window at any time during its reasoning process. It's especially effective for problems requiring specialized knowledge, complex reasoning, or access to multiple examples. The authors highlight that this approach eliminates the need for complex tool use, agent architectures, or retrieval augmentation strategies in many cases - by simply giving the model everything it might need upfront in a well-structured format. The performance improvements are particularly notable on tasks like GPQA (technical questions across STEM fields), MMLU (professional knowledge benchmarks), and mathematical problem-solving competitions. • Self-reported

84.1%

Social IQa

5-shot Мы провели серию экспериментов, сравнивая пятикратное пошаговое решение задач с использованием пяти различных примеров задач с решениями. Эти примеры были предоставлены модели для каждой новой задачи. Эксперименты показали, что предоставление примеров помогло моделям генерировать более точные ответы, особенно для сложных задач, где требуются специализированные шаги решения. Модели могли адаптировать шаблон решения из примеров к новым задачам. Мы обнаружили, что примеры с подробными объяснениями каждого шага были эффективнее, чем примеры, которые просто показывали последовательность действий. Это позволило моделям лучше понять логику решения и применить её к новым ситуациям. В нашей оценке мы рассчитали процент правильных ответов и промежуточных шагов. Также мы проанализировали, насколько близко модели следовали структуре решения из примеров и где они отклонялись, чтобы приспособиться к особенностям новых задач. Метод 5-shot оказался особенно полезным для задач, требующих определенного формата ответа или специфического подхода к решению, позволяя моделям быстро адаптироваться к нужному формату без дополнительных явных инструкций. • Self-reported

74.7%

SQuALITY

стандартная оценка • Self-reported

24.3%

SummScreenFD

стандартная оценка • Self-reported

16.0%

Лицензия и метаданные

Лицензия

mit

Дата анонса

23 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Phi-3.5-mini-instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.1 8B Instruct

Ministral 8B Instruct

Llama 3.2 3B Instruct

Qwen2.5 7B Instruct

Phi-4-multimodal-instruct

Phi 4

GPT-3.5 Turbo

DeepSeek R1 Distill Llama 70B