Phi-3.5-vision-instruct

Мультимодальная

Microsoft

Phi-3.5-vision-instruct — это открытая мультимодальная модель с 4,2 миллиардами параметров и поддержкой до 128K токенов контекстного окна. Модель специализируется на понимании и анализе множественных кадров изображений, повышая производительность на бенчмарках для одиночных изображений и одновременно обеспечивая сравнение нескольких изображений, суммаризацию и даже анализ видео. Модель прошла пост-обучение по безопасности для улучшенного следования инструкциям, выравнивания и надежной обработки визуальных и текстовых входных данных, и выпускается под лицензией MIT.

Основные характеристики

Параметры

4.2B

Контекст

Дата выпуска

23 августа 2024 г.

Средний балл

68.3%

API документация Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

23 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

4.2B

Токены обучения

500.0B токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках