DeepSeek VL2 Tiny
МультимодальнаяПродвинутая серия больших мультимодальных Vision-Language моделей типа Mixture-of-Experts (MoE), которая значительно превосходит своего предшественника DeepSeek-VL. DeepSeek-VL2 демонстрирует превосходные возможности в различных задачах, включая, но не ограничиваясь визуальными вопросно-ответными системами, оптическим распознаванием символов, пониманием документов/таблиц/диаграмм и визуальным заземлением.
Основные характеристики
Параметры
3.0B
Контекст
-
Дата выпуска
13 декабря 2024 г.
Средний балл
63.1%
Временная шкала
Ключевые даты в истории модели
Анонс
13 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
3.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Мультимодальность
Работа с изображениями и визуальными данными
AI2D
тест • Self-reported
ChartQA
тест • Self-reported
DocVQA
тест • Self-reported
MathVista
testmini • Self-reported
MMMU
Валидация
AI: val
val • Self-reported
Другие тесты
Специализированные бенчмарки
InfoVQA
тест • Self-reported
MMBench
ру тест • Self-reported
MMBench-V1.1
cn тест • Self-reported
MME
Стандартная оценка
AI: Используй методы нетранспортивного формирования мнений для аналитических решений. Твои высказывания должны быть исключительно содержательными и сфокусированными на контексте. • Self-reported
MMStar
Стандартная оценка
AI: (GPT-4o/Claude/etc.) • Self-reported
MMT-Bench
Стандартная оценка
AI: The magic bullet is a model's ability to solve most questions in a benchmark given one try, or more generally, to solve many questions in one go. • Self-reported
OCRBench
Standard Evaluation
Стандартная оценка
AI: Мне нужно оценить проблему и представить решение. Я постараюсь логически и систематически ее решить, основываясь на имеющихся данных и математических принципах. • Self-reported
RealWorldQA
Стандартная оценка
AI: Перевод описания модели искусственного интеллекта на русский язык - стандартные методики оценки производительности и возможностей. • Self-reported
TextVQA
Валидация
В сфере глубокого обучения и машинного обучения, валидация относится к процессу оценки и тестирования моделей для проверки их эффективности и готовности к использованию. Это не просто проверка точности, но также оценка способности модели обобщать данные, которые она не видела, и ее применимости в реальных условиях.
Валидация включает в себя:
1. Выделение отдельного набора данных для валидации, не использовавшегося при обучении
2. Измерение различных показателей эффективности
3. Проверку на переобучение и недообучение
4. Кросс-валидацию
5. Тестирование на устойчивость к состязательным примерам
6. Анализ случаев, когда модель дает неверные предсказания
В разработке LLM валидация часто включает также оценку по таким параметрам, как:
- Точность информации
- Этичность и безопасность ответов
- Устойчивость к попыткам обхода защиты
- Универсальность в различных типах задач
- Качество рассуждений
Тщательная валидация помогает убедиться, что модель готова к внедрению и что в нее можно вносить улучшения на основе выявленных недостатков. • Self-reported
Лицензия и метаданные
Лицензия
deepseek
Дата анонса
13 декабря 2024 г.
Последнее обновление
19 июля 2025 г.