Phi-3.5-vision-instruct
МультимодальнаяPhi-3.5-vision-instruct — это открытая мультимодальная модель с 4,2 миллиардами параметров и поддержкой до 128K токенов контекстного окна. Модель специализируется на понимании и анализе множественных кадров изображений, повышая производительность на бенчмарках для одиночных изображений и одновременно обеспечивая сравнение нескольких изображений, суммаризацию и даже анализ видео. Модель прошла пост-обучение по безопасности для улучшенного следования инструкциям, выравнивания и надежной обработки визуальных и текстовых входных данных, и выпускается под лицензией MIT.
Основные характеристики
Временная шкала
Технические характеристики
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Мультимодальность
Другие тесты
Лицензия и метаданные
Похожие модели
Все моделиPhi-4-multimodal-instruct
Microsoft
Phi-3.5-mini-instruct
Microsoft
Phi 4 Mini Reasoning
Microsoft
Phi 4 Mini
Microsoft
Gemma 3n E2B Instructed LiteRT (Preview)
Gemma 3n E4B Instructed
Gemma 3n E2B Instructed
Granite 3.3 8B Instruct
IBM
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.