Phi-3.5-vision-instruct
МультимодальнаяPhi-3.5-vision-instruct — это открытая мультимодальная модель с 4,2 миллиардами параметров и поддержкой до 128K токенов контекстного окна. Модель специализируется на понимании и анализе множественных кадров изображений, повышая производительность на бенчмарках для одиночных изображений и одновременно обеспечивая сравнение нескольких изображений, суммаризацию и даже анализ видео. Модель прошла пост-обучение по безопасности для улучшенного следования инструкциям, выравнивания и надежной обработки визуальных и текстовых входных данных, и выпускается под лицензией MIT.
Основные характеристики
Параметры
4.2B
Контекст
-
Дата выпуска
23 августа 2024 г.
Средний балл
68.3%
Временная шкала
Ключевые даты в истории модели
Анонс
23 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
4.2B
Токены обучения
500.0B токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Мультимодальность
Работа с изображениями и визуальными данными
AI2D
стандартная оценка • Self-reported
ChartQA
стандартная оценка • Self-reported
MathVista
стандартная оценка • Self-reported
MMMU
стандартная оценка • Self-reported
Другие тесты
Специализированные бенчмарки
InterGPS
стандартная оценка • Self-reported
MMBench
стандартная оценка • Self-reported
POPE
стандартная оценка • Self-reported
ScienceQA
стандартная оценка • Self-reported
TextVQA
стандартная оценка • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
23 августа 2024 г.
Последнее обновление
19 июля 2025 г.