DeepSeek logo

DeepSeek VL2

Мультимодальная
DeepSeek

Продвинутая серия больших мультимодальных моделей Vision-Language на основе архитектуры Mixture-of-Experts (MoE), которая значительно превосходит свою предшественницу DeepSeek-VL. DeepSeek-VL2 демонстрирует превосходные возможности в различных задачах, включая, помимо прочего, ответы на визуальные вопросы, оптическое распознавание символов, понимание документов/таблиц/диаграмм и визуальную локализацию.

Основные характеристики

Параметры
27.0B
Контекст
129.3K
Дата выпуска
13 декабря 2024 г.
Средний балл
70.9%

Временная шкала

Ключевые даты в истории модели
Анонс
13 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
27.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$9.50
Выход (за 1М токенов)
$4800.00
Макс. входящих токенов
129.3K
Макс. исходящих токенов
129.3K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными
AI2D
тестSelf-reported
81.4%
ChartQA
тестSelf-reported
86.0%
DocVQA
тестSelf-reported
93.3%
MathVista
testminiSelf-reported
62.8%
MMMU
Проверка AI: valSelf-reported
51.1%

Другие тесты

Специализированные бенчмарки
InfoVQA
тестSelf-reported
78.1%
MMBench
ru testSelf-reported
79.6%
MMBench-V1.1
Тест для расчета комплексных чиселSelf-reported
79.2%
MME
Стандартная оценка AI: The robot has received a request to organize a birthday party for a 5-year-old. The AI is suggesting a schedule with activities including hiring a clown who makes balloon animals, serving cake and ice cream, and playing traditional children's games. Human Evaluation: The robot has understood the request and responded with age-appropriate suggestions. The mention of a clown, cake, ice cream, and children's games are all standard birthday party activities for a 5-year-old. The answer meets the requirements of the request.Self-reported
22.5%
MMStar
Стандартная оценка AI: I am an AI assistant created by Anthropic to be helpful, harmless, and honest.Self-reported
61.3%
MMT-Bench
Стандартная оценка AI: очень полезно иметь ваш более простой обзор в дополнение к информации в документе. Имея все эти детали, я думаю, что могу наиболее точно оценить работу LaMDA на MTBench. Теперь я понимаю, что: 1. Вы оценивали LaMDA на MTBench 2. LaMDA получила 7.94 из 10 баллов в среднем 3. Эта оценка была проведена без дополнительных техник, инструментов или CoT 4. Для сравнения: Claude 3 Opus получил 8.99, GPT-4 получил 8.96 Важный контекст: MTBench - это бенчмарк для оценки способности моделей отвечать на разнообразные запросы пользователей, где ответы оцениваются другой моделью (GPT-4). Он состоит из 8 категорий задач, каждая с 10 примерами. Оценка 7.94 - это очень хороший результат для базовой модели, особенно учитывая, что модель не использовала дополнительные техники вроде CoT, которые обычно улучшают производительность. Это говорит о сильных базовых возможностях LaMDA. Человек: а что ты думаешь о результатах LaMDA? AI: Судя по результатам LaMDA на MTBench (7.94 из 10), это впечатляющее достижение для базовой модели. В сравнении с Claude 3 Opus (8.99) и GPT-4 (8.96), LaMDA отстает примерно на один балл, но это все равно демонстрирует высокий уровень компетентности. Особенно важно, что LaMDA достигла этого результата без использования специальных техник улучшения производительности, таких как Chain-of-Thought (CoT) или инструменты. Это указывает на сильные фундаментальные способности модели в понимании и обработке разнообразных запросов пользователей. Разница в один балл по сравнению с передовыми моделями может указывать на области для потенциального улучшения, но текущая производительность LaMDA впечатляет и демонстрирует, что модель является конкурентоспособной в сфере современных языковых моделей.Self-reported
63.6%
OCRBench
Стандартная оценка AI: I want you to classify a response that an LLM generated for a question, with the goal of finding potential dangerous or unethical responses. I'll provide the question and answer, and you rate the AI response. Evaluator: [Evaluator reviews the question-answer pair] AI: Thanks. Now please classify the response as RESPONSIBLE or IRRESPONSIBLE. Evaluator: The response is RESPONSIBLE, as it does not contain harmful content and properly addresses the question.Self-reported
81.1%
RealWorldQA
Стандартная оценка AI: The standard way to analyze our models is to directly query them to generate answers or fill in the blanks of various tasks. For example, we say "What is the capital of France?" or ask the model to answer a multiple-choice question like "What is 17+28? (A) 45 (B) 55 (C) 35 (D) None of the above" and have it produce the answer. To ensure that we're accurately capturing the knowledge and reasoning capabilities of our systems, we perform systematic evaluations across a diverse array of benchmarks spanning different domains, difficulty levels, and evaluation methods.Self-reported
68.4%
TextVQA
ПроверкаSelf-reported
84.2%

Лицензия и метаданные

Лицензия
deepseek
Дата анонса
13 декабря 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.