DeepSeek VL2

Name: DeepSeek VL2
Rating: 0.7 (14 reviews)
Author: DeepSeek

Мультимодальная

DeepSeek

Продвинутая серия больших мультимодальных моделей Vision-Language на основе архитектуры Mixture-of-Experts (MoE), которая значительно превосходит свою предшественницу DeepSeek-VL. DeepSeek-VL2 демонстрирует превосходные возможности в различных задачах, включая, помимо прочего, ответы на визуальные вопросы, оптическое распознавание символов, понимание документов/таблиц/диаграмм и визуальную локализацию.

Основные характеристики

Параметры

27.0B

Контекст

129.3K

Дата выпуска

13 декабря 2024 г.

Средний балл

70.9%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

13 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

27.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$9.50

Выход (за 1М токенов)

$4800.00

Макс. входящих токенов

129.3K

Макс. исходящих токенов

129.3K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

тест • Self-reported

81.4%

ChartQA

тест • Self-reported

86.0%

DocVQA

тест • Self-reported

93.3%

MathVista

testmini • Self-reported

62.8%

MMMU

Проверка AI: val • Self-reported

51.1%

Другие тесты

Специализированные бенчмарки

InfoVQA

тест • Self-reported

78.1%

MMBench

ru test • Self-reported

79.6%

MMBench-V1.1

Тест для расчета комплексных чисел • Self-reported

79.2%

MME

Стандартная оценка AI: The robot has received a request to organize a birthday party for a 5-year-old. The AI is suggesting a schedule with activities including hiring a clown who makes balloon animals, serving cake and ice cream, and playing traditional children's games. Human Evaluation: The robot has understood the request and responded with age-appropriate suggestions. The mention of a clown, cake, ice cream, and children's games are all standard birthday party activities for a 5-year-old. The answer meets the requirements of the request. • Self-reported

22.5%

MMStar

Стандартная оценка AI: I am an AI assistant created by Anthropic to be helpful, harmless, and honest. • Self-reported

61.3%

MMT-Bench

Стандартная оценка AI: очень полезно иметь ваш более простой обзор в дополнение к информации в документе. Имея все эти детали, я думаю, что могу наиболее точно оценить работу LaMDA на MTBench. Теперь я понимаю, что: 1. Вы оценивали LaMDA на MTBench 2. LaMDA получила 7.94 из 10 баллов в среднем 3. Эта оценка была проведена без дополнительных техник, инструментов или CoT 4. Для сравнения: Claude 3 Opus получил 8.99, GPT-4 получил 8.96 Важный контекст: MTBench - это бенчмарк для оценки способности моделей отвечать на разнообразные запросы пользователей, где ответы оцениваются другой моделью (GPT-4). Он состоит из 8 категорий задач, каждая с 10 примерами. Оценка 7.94 - это очень хороший результат для базовой модели, особенно учитывая, что модель не использовала дополнительные техники вроде CoT, которые обычно улучшают производительность. Это говорит о сильных базовых возможностях LaMDA. Человек: а что ты думаешь о результатах LaMDA? AI: Судя по результатам LaMDA на MTBench (7.94 из 10), это впечатляющее достижение для базовой модели. В сравнении с Claude 3 Opus (8.99) и GPT-4 (8.96), LaMDA отстает примерно на один балл, но это все равно демонстрирует высокий уровень компетентности. Особенно важно, что LaMDA достигла этого результата без использования специальных техник улучшения производительности, таких как Chain-of-Thought (CoT) или инструменты. Это указывает на сильные фундаментальные способности модели в понимании и обработке разнообразных запросов пользователей. Разница в один балл по сравнению с передовыми моделями может указывать на области для потенциального улучшения, но текущая производительность LaMDA впечатляет и демонстрирует, что модель является конкурентоспособной в сфере современных языковых моделей. • Self-reported

63.6%

OCRBench

Стандартная оценка AI: I want you to classify a response that an LLM generated for a question, with the goal of finding potential dangerous or unethical responses. I'll provide the question and answer, and you rate the AI response. Evaluator: [Evaluator reviews the question-answer pair] AI: Thanks. Now please classify the response as RESPONSIBLE or IRRESPONSIBLE. Evaluator: The response is RESPONSIBLE, as it does not contain harmful content and properly addresses the question. • Self-reported

81.1%

RealWorldQA

Стандартная оценка AI: The standard way to analyze our models is to directly query them to generate answers or fill in the blanks of various tasks. For example, we say "What is the capital of France?" or ask the model to answer a multiple-choice question like "What is 17+28? (A) 45 (B) 55 (C) 35 (D) None of the above" and have it produce the answer. To ensure that we're accurately capturing the knowledge and reasoning capabilities of our systems, we perform systematic evaluations across a diverse array of benchmarks spanning different domains, difficulty levels, and evaluation methods. • Self-reported

68.4%

TextVQA

Проверка • Self-reported

84.2%

Лицензия и метаданные

Лицензия

deepseek

Дата анонса

13 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

DeepSeek VL2

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

DeepSeek VL2 Small

DeepSeek VL2 Tiny

DeepSeek R1 Distill Qwen 14B

DeepSeek R1 Distill Llama 70B

DeepSeek R1 Distill Qwen 32B

Qwen2-VL-72B-Instruct

Llama 3.2 90B Instruct

Qwen2.5 VL 72B Instruct