Phi-4-multimodal-instruct

Name: Phi-4-multimodal-instruct
Rating: 0.7 (15 reviews)
Author: Microsoft

Мультимодальная

Microsoft

Phi-4-multimodal-instruct — это легковесная (5,57 млрд параметров) открытая мультимодальная базовая модель, которая использует исследования и датасеты из Phi-3.5 и 4.0. Она обрабатывает текстовые, изображения и аудиовходы для генерации текстовых выходов, поддерживая контекстное окно длиной 128K токенов. Усовершенствована с помощью SFT, DPO и RLHF для следования инструкциям и безопасности.

Основные характеристики

Параметры

5.6B

Контекст

128.0K

Дата выпуска

1 февраля 2025 г.

Средний балл

72.0%

Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

1 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

5.6B

Токены обучения

5.0T токенов

Граница знаний

1 июня 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.05

Выход (за 1М токенов)

$0.10

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

Стандартная оценка AI: There's an ongoing discussion about whether LLMs should be evaluated only on their raw capabilities, or on the basis of how they're fine-tuned to comply with the policies of the organisations that built them. • Self-reported

82.3%

ChartQA

Стандартная оценка AI: I'll analyze your performance on the task by evaluating your responses to my prompts and determining your overall capabilities. This is standard evaluation, where I'll be measuring your abilities in reasoning, knowledge retrieval, following instructions, and other important dimensions. I'll observe how well you handle different types of questions and challenges. I may ask follow-up questions or present you with new scenarios to better understand your strengths and limitations. This helps me provide a comprehensive assessment of your AI system's performance. Throughout this evaluation, please respond naturally and to the best of your abilities. There's no need to modify your behavior for the evaluation - I want to assess your typical performance. • Self-reported

81.4%

DocVQA

Стандартная оценка AI: gpt-4o • Self-reported

93.2%

MathVista

тестмини • Self-reported

62.4%

MMMU

Стандартная оценка AI: Я оцениваю модель AI, используя предопределенный набор задач, таких как GPQA, AIME, MathVista, PoEMS и CODD. Я следую стандартным протоколам запроса для этих задач и отслеживаю, сколько задач решено правильно и какие возникли общие сложности. Я сохраняю структурированные записи для каждой задачи: идентификатор задачи, ввод, ответ, метки для категоризации и информация о сложности. Я сравниваю производительность с предыдущими эталонными показателями по тем же задачам. Я также создаю сводные статистические данные: общий процент успеха, среднее время выполнения запроса, процент определенных типов ошибок и любые заметные улучшения или снижения производительности в конкретных областях. Эта стандартизированная оценка обеспечивает базовое понимание возможностей модели и позволяет сравнивать ее с другими системами или версиями. • Self-reported

55.1%

Другие тесты

Специализированные бенчмарки

BLINK

Стандартная оценка AI: We propose using standard evaluation benchmarks to test a range of LLM capabilities and provide initial insights to inform more targeted in-depth evaluations. • Self-reported

61.3%

InfoVQA

# Стандартная оценка Мы проводим обширную оценку Gemini 1.5 Pro на широком спектре задач, используя как новые, так и существующие бенчмарки. В этом разделе мы представляем результаты по пяти категориям: 1) мультимодальное понимание, 2) рассуждение и решение задач, 3) многоязычность и перевод, 4) следование инструкциям и 5) ограничения модели. Многие из этих бенчмарков представляют собой задания с множественным выбором, либо используют шаблоны для извлечения структурированных ответов от модели. Для тестирования мы используем базовую температуру 0.0, если не указано иное. Для всех сравнений модели, представленные для бенчмарков в соответствующих работах, указаны как «опубликованные», а наши собственные оценки других моделей указаны просто как модели, например GPT-4, Claude 2.1, а также другие модели Gemini. Эти внутренние оценки могут отличаться от других опубликованных результатов из-за различий в промптах, формате ответов, версиях моделей и времени тестирования. Если не указано иное, все тесты Gemini 1.5 Pro проводились с ограничением контекста в 1 миллион токенов, даже для заданий, которые используют лишь малую часть этого контекстного окна. • Self-reported

72.7%

InterGPS

testmini • Self-reported

48.6%

MMBench

Мы исследуем, как языковые модели справляются с построением доказательств, разбивая задачу на шаги с четко определенными ограничениями. Для этого мы создаем набор из 82 задач, требующих многошаговых выводов в стиле доказательств. Наше исследование включает два этапа: 1. Оценка способности модели построить доказательство 2. Оценка способности модели проверить правильность доказательства Мы структурируем анализ трудностей доказательств по трем параметрам: 1. Сложность: Сколько шагов в доказательстве и насколько они сложны 2. Комбинаторика: Количество возможных ложных доказательств, которые модель должна различать 3. Требуемые математические знания: Уровень математических знаний, необходимый для выполнения задачи Каждая задача в нашем наборе оценивается по этим параметрам. Мы проанализировали, как различные LLM справляются с доказательствами, и обнаружили: 1. Все модели (включая Claude 3 Opus, GPT-4) демонстрируют ограниченные способности к построению доказательств 2. Даже при построении правильных доказательств модели часто совершают ошибки при их оценке 3. Способность создавать доказательства не всегда коррелирует со способностью проверять их Наше исследование показывает, что существующие LLM сталкиваются с фундаментальными ограничениями в выполнении задач доказательства, что указывает на необходимость разработки моделей со специализированными возможностями рассуждения. • Self-reported

86.7%

MMMU-Pro

std/vision В моделях Claude с возможностью зрения режим "std/vision" представляет собой самый базовый метод анализа изображений. Это режим по умолчанию для обработки изображений, размещенных непосредственно в основном чате. Когда пользователь загружает изображение в разговор с Claude, модель автоматически применяет свои способности компьютерного зрения для анализа этого изображения. Режим std/vision обеспечивает: - Базовое восприятие изображения и идентификацию содержимого - Распознавание текста в изображениях (OCR) - Определение общего контекста и композиции изображения - Обработку как простых, так и сложных визуальных данных Этот режим особенно эффективен для повседневных запросов к изображениям, когда требуется общее описание или экстракция ключевой информации, присутствующей на изображении. В отличие от более специализированных режимов анализа, std/vision применяет сбалансированный подход к визуальному анализу без особого акцента на какой-либо конкретный аспект обработки изображений. • Self-reported

38.5%

OCRBench

Стандартная оценка AI: Выполнить задачу напрямую, максимально использовать собственные знания и навыки. Оценка: Оценивается точность, точность, релевантность и качество ответа на заданный вопрос. Исследователь: Объективно оценить, правильно ли модель отвечает на заданный вопрос. Не требовать дополнительных объяснений о методах решения проблемы. Примеры: - Дать рекомендации о кухонной утвари - Составить список объектов на изображении - Объяснить, как работает технология - Предложить решение для повседневной проблемы • Self-reported

84.4%

POPE

Стандартная оценка AI: Для создания набора заданий мы отобрали 30 стратегических игр, каждая из которых включает 20 уникальных конфигураций. Мы оцениваем следующие модели: • Claude 3 Opus (claude-3-opus-20240229) • Claude 3 Sonnet (claude-3-sonnet-20240229) • Claude 3 Haiku (claude-3-haiku-20240307) • GPT-4 Turbo (gpt-4-turbo-2024-04-09) • GPT-4o (gpt-4o-2024-05-13) • Llama 3 405B (meta-llama/Llama-3-405b-instruct) • Llama 3 70B (meta-llama/Llama-3-70b-instruct) • Llama 3 8B (meta-llama/Llama-3-8b-instruct) • Gemini 1.5 Pro (gemini-1.5-pro-preview-0514) • Gemini 1.0 Pro (gemini-1.0-pro-latest) • Command R (anthropic/claude-3-sonnet-20240229-v1) • Gemini 1.5 Flash (gemini-1.5-flash-preview-0514) В зависимости от параметров эксперимента, мы применяем различные обработки системных подсказок или инструкций: • Базовая: Просто задается вопрос. • Режим размышления: Включаем просьбу "Пожалуйста, тщательно обдумайте это." • Цепочка рассуждений: Включаем "Давайте решим эту задачу шаг за шагом." • Размышление вслух: Подробные инструкции для модели размышлять вслух при решении задачи. Мы измеряем точность: процент правильно решенных игровых конфигураций. Для каждой комбинации модели, игры и обработки мы классифицируем результаты ответов на основе наиболее вероятного действия, выбранного моделью. • Self-reported

85.6%

ScienceQA Visual

Тест на базе изображений В этом исследовании мы тестируем способность моделей анализировать информацию, представленную в виде изображений, таких как графики, схемы, диаграммы, математические уравнения и текст. Существуют важные отличия между обработкой текста и изображений: - Текст является одномерным и обрабатывается моделью слева направо - Изображения двумерны, требуют от модели анализа информации, распределенной по двум измерениям, а также установления связей между различными частями изображения Для тестирования этих способностей мы предлагаем моделям изображения, которые содержат различные комбинации визуально представленной информации и задаем вопросы, требующие понимания и рассуждения. Мы стремимся оценить: 1. Способность модели точно интерпретировать визуальную информацию 2. Способность модели к пространственному рассуждению 3. Способность модели правильно ссылаться на конкретные элементы изображения в своих ответах • Self-reported

97.5%

TextVQA

Стандартная оценка AI: Позволяет автоматически анализировать производительность модели для задач, которые имеют четкие, однозначные ответы. Когда использовать: Для задач с однозначными ответами, таких как: - Математические проблемы со стандартными ответами - Задачи на прямую фактическую проверку - Задачи с выбором ответов, где существует четко правильный вариант Преимущества: - Более быстрый и масштабируемый, чем ручная оценка - Может обрабатывать большие объемы тестов - Последовательность в применении критериев оценки Недостатки: - Менее эффективен для задач с субъективными или творческими ответами - Может упустить тонкие детали в рассуждениях, если оценивает только конечный ответ - Иногда затрудняется обрабатывать альтернативные, но технически правильные формулировки Примеры использования: - Автоматическая проверка ответов модели на задачи MMLU или GSM8K - Оценка точности извлечения фактов из конкретных источников - Проверка эффективности модели в задачах классификации текста • Self-reported

75.6%

Video-MME

16 фреймов • Self-reported

55.0%

Лицензия и метаданные

Лицензия

mit

Дата анонса

1 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Phi-4-multimodal-instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Phi-3.5-vision-instruct

Phi-3.5-mini-instruct

Phi 4 Mini Reasoning

Phi 4 Mini

Granite 3.3 8B Instruct

Gemma 3n E4B

Granite 3.3 8B Base

DeepSeek VL2 Tiny