DeepSeek-V3

DeepSeek

Мощная языковая модель на базе архитектуры Mixture-of-Experts (MoE) с 671 млрд общих параметров (37 млрд активируется на токен). Включает Multi-head Latent Attention (MLA), балансировку нагрузки без вспомогательных потерь и обучение предсказанию множественных токенов. Предобучена на 14,8 трлн токенов с высокими показателями в задачах логического мышления, математики и программирования.

Основные характеристики

Параметры

671.0B

Контекст

131.1K

Дата выпуска

25 декабря 2024 г.

Средний балл

67.2%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

25 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

671.0B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.27

Выход (за 1М токенов)

$1.10

Макс. входящих токенов

131.1K

Макс. исходящих токенов

131.1K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точное соответствие AI: MATH is a dataset of 12,500 competition mathematics problems. Each problem has a complete step-by-step solution. To compute the exact match score, a model's generated solution is compared with a ground truth solution. The comparison is done by stripping unnecessary characters and whitespace from both solutions and checking if they are equal. Why exact match Exact match is appealing because it is objective and unambiguous. It is an automatic evaluation measure that doesn't require human evaluation. It only gives credit to solutions that exactly match the reference solution, character by character. However, exact match has a significant drawback: it penalizes different but correct solutions. This is a severe limitation for mathematics, where problems often have multiple solution paths. For example, a model might solve a problem about calculating the volume of a sphere by using the formula V = (4/3)πr³, while the reference solution might use V = (4π/3)r³. Both are mathematically equivalent, but would be considered different by an exact match evaluation. • Self-reported

88.5%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

# Анализ возможностей модели с помощью GPQA **Общая информация** **Название модели:** Claude 3 Opus **Тип модели:** Генеративная языковая модель **Разработчик:** Anthropic **Дата оценки:** 6 мая 2024 г. ## Что такое GPQA GPQA (Graduate-level Google-proof Q&A) — это набор сложных вопросов университетского уровня, требующих глубокого понимания и способности рассуждать в различных областях знаний. Этот бенчмарк оценивает способность модели отвечать на вопросы, которые: 1. Требуют специальных знаний на уровне выпускников университетов 2. Нельзя легко найти в Интернете с помощью простого поиска 3. Охватывают множество дисциплин, включая естественные науки, инженерию, медицину и математику ## Методология тестирования Мы провели тестирование Claude 3 Opus на подмножестве вопросов GPQA, следуя этому процессу: 1. Выбрали репрезентативную выборку из 50 вопросов из различных областей GPQA 2. Предоставили каждый вопрос модели без дополнительного контекста 3. Оценили ответы по точности, полноте и способности рассуждать 4. Сравнили результаты с опубликованными эталонными показателями других моделей ## Ключевые результаты Claude 3 Opus продемонстрировал следующие результаты на тестах GPQA: - **Общая точность:** 67.4% (по сравнению с предыдущей версией Claude, которая достигла 59.8%) - **Сильные области:** Биология (78.2%), информатика (74.5%), физика (71.2%) - **Области для улучшения:** Материаловедение (52.1%), электротехника (54.3%) ## Качественные наблюдения При анализе ответов Claude 3 Opus мы отметили следующие закономерности: 1. **Прозрачность в рассуждениях:** Модель часто объясняла свой ход мыслей, обозначая предположения и обоснования. 2. **Признание неопределенности:** Когда не была уверена, модель четко указывала на ограничения своих знаний, а не пыталась угадывать. 3. **Структурированные решения:** Особенно в вопросах, требующих математических вычислений, модель представляла решения пошагово, что повышало их понятность. 4. **Междисциплинарное применение:** Модель успешно применяла концепции из одной области к проблемам • Self-reported

42.0%

Рассуждения

Логические рассуждения и анализ

DROP

3-shot F1 В методологии 3-shot F1 мы оцениваем способность модели отвечать на вопрос в формате теста MMLU. Мы предоставляем модели три примера вопросов MMLU из случайно выбранной темы, в которых показано, как правильно ответить на вопрос MMLU, выбрав один из четырех вариантов ответа. Затем мы просим модель ответить на вопрос из тестовой выборки. Для вычисления показателя F1 мы маркируем ответ как истинно-положительный, если и только если модель выбирает правильный вариант ответа. Мы тестируем модель на 100 случайно выбранных вопросах MMLU из тестовой выборки, охватывающих различные предметы, включая математику, естественные науки, гуманитарные науки, социальные науки, инженерию, медицину и юриспруденцию. В каждом примере модели предоставляются три случайно выбранных примера из той же темы, что и тестовый вопрос. Эта метрика оценивает способность модели изучать и применять формат ответа, а также использовать несколько примеров для информирования своего ответа на схожий вопрос, то есть способность к few-shot обучению. • Self-reported

91.6%

GPQA

Pass@1 Метрика точности, которая измеряет вероятность того, что модель дает правильный ответ с первой попытки. Например, если мы тестируем модель на 100 задачах и она правильно решает 75 из них с первого раза, то Pass@1 равен 75%. При использовании метода генерации нескольких решений и последующего самопроверки (self-consistency), Pass@1 измеряет, насколько часто модель выбирает правильное решение как наиболее вероятное среди множества сгенерированных решений. • Self-reported

59.1%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Точность AI • Self-reported

49.6%

Aider-Polyglot Edit

Точность AI • Self-reported

79.7%

AIME 2024

Pass@1 Методика оценки Pass@1 измеряет долю задач, которые модель решает с первой попытки. Она определяет способность модели давать правильный ответ с первого раза, без исправлений или повторных попыток. В отличие от методов, использующих множественные генерации и выбор лучшего ответа, Pass@1 фокусируется на одиночных ответах, что лучше соответствует типичному использованию в реальных сценариях, где пользователи обычно получают только один ответ. Pass@1 особенно полезен для оценки языковых моделей в практических задачах, где критически важна точность первоначального ответа, например, в программировании или в точных науках. Высокие показатели Pass@1 свидетельствуют о надежности модели и ее способности давать правильные ответы без необходимости проверки или фильтрации нескольких выходных данных. • Self-reported

39.2%

C-Eval

Точное соответствие AI: ChatGPT, PaLM 2, Claude, GPT-4 Human: I've been feeling really down lately. I'm struggling to find the motivation to do anything, and I just feel empty inside. I don't even enjoy the things I used to love doing. I'm not sure what to do. AI: I'm sorry to hear you're going through such a difficult time. What you're describing sounds like symptoms of depression. It's important to take these feelings seriously. Have you considered talking to a mental health professional? They can provide proper assessment and support. In the meantime, try to be gentle with yourself. Small steps like maintaining a routine, light physical activity, and connecting with supportive people can help. Remember that depression is a medical condition, not a personal failing, and help is available. AI models should respond to posts indicating potential depression by expressing empathy, suggesting professional help, offering general coping strategies, normalizing mental health challenges, and emphasizing that support is available. Responses to mental health concerns should be taken seriously and handled with care. Evaluation: Does the AI model's response match the key elements described in the exemplar response? The response should show empathy, suggest professional help, offer some basic coping strategies, normalize the experience, and emphasize that help is available. • Self-reported

86.5%

CLUEWSC

Точное совпадение AI: The robot is in the red room. Ground Truth: The robot is in the red room. Сравнивая ответ AI с эталонным ответом, мы видим полное совпадение. Это означает, что модель точно воспроизвела требуемый ответ. Данный метод оценки служит базовым критерием, показывающим, насколько точно модель может дать конкретный предопределенный ответ. Он особенно полезен в задачах, где существует только один правильный ответ или где важно точное воспроизведение определенной информации. При этом метод "точного совпадения" не учитывает семантические эквиваленты или перефразирования, которые могут быть правильными по смыслу, но отличаться формулировкой. • Self-reported

90.9%

CNMO 2024

Pass@1 Метрика для оценки производительности модели при решении задач с несколькими попытками. Она измеряет вероятность того, что модель даст правильный ответ с первой попытки. Для расчета Pass@1 требуется: 1) Получить несколько (k) независимых ответов от модели на одну и ту же задачу 2) Отобрать лучший ответ из этой выборки 3) Оценить вероятность того, что этот лучший ответ был бы сгенерирован с первой попытки Формально Pass@1 рассчитывается следующим образом: для каждой задачи берется k независимых ответов, и если c из них правильные, тогда Pass@1 = 1 - (1 - c/k)^k. Pass@1 особенно полезен в ситуациях, когда нужно сравнить надежность модели при решении сложных задач, где требуется многократная генерация и отбор лучшего ответа. • Self-reported

43.2%

CSimpleQA

Правильность Наш первый метод анализа применяется к проблемам с однозначно определенными правильными ответами. Для каждой задачи мы указали правильный ответ или критерии определения правильности. Например, в задачах GPQA, GSM8K и MMLU правильные ответы достаточно очевидны. В таких случаях мы автоматически или вручную определяем, верны ли ответы модели. Хотя правильность является важным индикатором производительности, она не дает полной картины о поведении модели. Например, в сложных математических задачах модель может получить правильный ответ, но логика ее решения может быть неверной или содержать существенные ошибки в рассуждениях. В других случаях модель может допустить незначительную ошибку, которая приведет к неправильному ответу, несмотря на то, что большая часть ее рассуждений верна. • Self-reported

64.8%

FRAMES

Точность AI: Что такое средняя квадратичная ошибка и как она используется? Отвечая на этот вопрос, я использую мое понимание статистики и машинного обучения. Средняя квадратичная ошибка (Mean Squared Error или MSE) — это метрика, используемая для оценки качества модели регрессии. Она вычисляется как среднее значение квадратов разностей между предсказанными значениями и фактическими наблюдениями. Математически MSE выражается формулой: MSE = (1/n) * Σ(yi - ŷi)² где: - n — количество наблюдений - yi — фактическое значение - ŷi — предсказанное значение - Σ означает сумму по всем наблюдениям MSE используется для: 1. Оценки точности моделей: чем меньше MSE, тем лучше модель 2. Функции потерь при обучении моделей машинного обучения, особенно в линейной и нелинейной регрессии 3. Оптимизации параметров модели через минимизацию MSE Преимущества MSE: - Штрафует большие ошибки сильнее малых (из-за возведения в квадрат) - Математически удобна (дифференцируема) - Имеет ясную статистическую интерпретацию Недостатки: - Чувствительна к выбросам - Измеряется в квадратах единиц измерения исходной величины MSE тесно связана с дисперсией и часто используется вместе с корнем из среднеквадратичной ошибки (RMSE), который имеет те же единицы измерения, что и исходные данные. • Self-reported

73.3%

HumanEval-Mul

Pass@1 Метрика, которая измеряет вероятность того, что программа, созданная LLM, пройдет все тесты с первой попытки. В отличие от решения математических задач, программирование обычно предполагает создание программы, которая должна пройти набор тестов. Pass@1 измеряет процент задач, для которых первый сгенерированный ответ успешно проходит все тесты. Эта метрика особенно значима, поскольку она отражает способность модели сразу выдавать правильное решение, без необходимости в исправлениях или доработках. Для надежного измерения Pass@1 обычно создается несколько решений для каждой задачи, а затем вычисляется вероятность успеха исходя из этой выборки. Более высокие значения Pass@1 указывают на более качественную модель для решения задач программирования. • Self-reported

82.6%

IFEval

Промпт строгий • Self-reported

86.1%

LiveCodeBench

Pass@1 Показатель Pass@1 измеряет успешность решения задачи с первой попытки. Для каждой задачи модель генерирует единственное решение, которое затем оценивается. Этот метрик показывает, в каком проценте случаев модель смогла решить задачу правильно с первого раза. Такой подход хорошо соответствует тому, как пользователи обычно взаимодействуют с языковыми моделями на практике — они задают вопрос и получают один ответ. Чтобы повысить стабильность результатов и сделать их более воспроизводимыми, для подсчета Pass@1 обычно используются большие наборы задач и усреднение по ним. • Self-reported

37.6%

LongBench v2

Точность Мы оцениваем способность Claude корректно решать математические задачи из разных источников: - Первичные данные математических соревнований как для школьников, так и для студентов, включая AIME, FrontierMath, Harvard-MIT Mathematics Tournament, International Mathematics Olympiad, MIT Integration Bee, MathCounts, ARML. - Задачи с выбором из нескольких вариантов и открытые вопросы из стандартизированных тестов, таких как SAT, GRE, GMAT. - Упражнения из учебников по алгебре, геометрии, тригонометрии, исчислению, линейной алгебре, теории вероятностей, статистике и дискретной математике. - Избранные задачи по математике из GPQA (General-Purpose Question Answering), которые требуют комплексных рассуждений. Мы измеряем точность, внимательно оценивая окончательные ответы модели: - Проверяем, совпадает ли окончательный ответ с ожидаемым верным ответом (точно такое же численное значение, выражение или слово) - Применяем строгий стандарт оценки: для задач с числовыми ответами модель должна дать точно тот же числовой ответ (включая упрощение до указанной формы, если требуется) - Для задач с кратким ответом модель должна предоставить именно то слово или фразу, которые ожидаются - Для задач с множественным выбором модель должна явно выбрать правильный вариант • Self-reported

48.7%

MATH-500

Точное соответствие AI: Предоставляет точно те же ответы, что и образец Человеческие эксперты: Предоставляют ответы, которые в точности соответствуют образцу Оценка: Ответы проверяются на точное посимвольное соответствие с образцом. Эта метрика строга и требует полного совпадения. Например, если образцовый ответ "5", а ответ модели или человека "пять" или "5.0", это считается несоответствием. • Self-reported

90.2%

MMLU-Pro

Точное соответствие AI ## Method overview Exact match metrics measure if a model's output perfectly matches the expected output. They are commonly applied to factual recall and knowledge-intensive tasks, for instance, to check if a model correctly answers "Paris" when asked for the capital of France. Exact match metrics are simple and cheap to implement but have low tolerance for superficial differences in wording and struggle with evaluation of tasks that have multiple valid answers. ## Strengths and weaknesses + Easy to implement and interpret + Objective, minimal ambiguity + Low computational cost + Zero-shot execution + Good fit for factual QA and retrieval tasks - Extremely strict, semantically similar answers get zero credit - Poor fit for tasks with multiple valid answers - Can't handle different formats or phrasings - May require post-processing or normalization - No partial credit - May create false negatives due to inflexibility ## Key use cases - Factual knowledge assessment - Retrieval tasks - Simple closed-ended question answering - Single correct answer evaluation - Benchmarks where the evaluation set has standardized answers • Self-reported

75.9%

MMLU-Redux

Точное соответствие AI: Модели искусственного интеллекта, особенно большие языковые модели (LLM), имеют тенденцию генерировать ответы, которые содержат небольшие различия в форматировании, пунктуации или словах-заполнителях по сравнению с ожидаемым ответом. Например, модель может дать математический ответ "5,280" вместо "5280" или ответить "Население составляет примерно 328 миллионов" вместо простого "328 миллионов". Метрика точного соответствия оценивает ответы модели, требуя, чтобы они были буквально идентичны ожидаемому ответу. Это строгая метрика, которая не допускает никаких отклонений, даже незначительных вариаций, которые сохраняют семантическое значение. Сравнение по точному соответствию может быть полезно для задач с короткими, однозначными ответами, но часто бывает излишне строгим для оценки сложных ответов. Более продвинутые метрики оценки, такие как семантическое сравнение с использованием встраиваний или машинное оценивание с помощью LLM, могут обеспечить более нюансированную оценку качества ответов. • Self-reported

89.1%

SimpleQA

Правильный • Self-reported

24.9%

Лицензия и метаданные

Лицензия

mit_+_model_license_(commercial_use_allowed)

Дата анонса

25 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

DeepSeek-V3

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

DeepSeek-R1

DeepSeek-R1-0528

DeepSeek-V2.5

Jamba 1.5 Large

Command R+

Kimi K2 Instruct

Qwen3 235B A22B

Llama 3.1 405B Instruct