Microsoft logo

Phi-3.5-vision-instruct

Мультимодальная
Microsoft

Phi-3.5-vision-instruct — это открытая мультимодальная модель с 4,2 миллиардами параметров и поддержкой до 128K токенов контекстного окна. Модель специализируется на понимании и анализе множественных кадров изображений, повышая производительность на бенчмарках для одиночных изображений и одновременно обеспечивая сравнение нескольких изображений, суммаризацию и даже анализ видео. Модель прошла пост-обучение по безопасности для улучшенного следования инструкциям, выравнивания и надежной обработки визуальных и текстовых входных данных, и выпускается под лицензией MIT.

Основные характеристики

Параметры
4.2B
Контекст
-
Дата выпуска
23 августа 2024 г.
Средний балл
68.3%

Временная шкала

Ключевые даты в истории модели
Анонс
23 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
4.2B
Токены обучения
500.0B токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными
AI2D
стандартная оценкаSelf-reported
78.1%
ChartQA
стандартная оценкаSelf-reported
81.8%
MathVista
стандартная оценкаSelf-reported
43.9%
MMMU
стандартная оценкаSelf-reported
43.0%

Другие тесты

Специализированные бенчмарки
InterGPS
стандартная оценкаSelf-reported
36.3%
MMBench
стандартная оценкаSelf-reported
81.9%
POPE
стандартная оценкаSelf-reported
86.1%
ScienceQA
стандартная оценкаSelf-reported
91.3%
TextVQA
стандартная оценкаSelf-reported
72.0%

Лицензия и метаданные

Лицензия
mit
Дата анонса
23 августа 2024 г.
Последнее обновление
19 июля 2025 г.