DeepSeek logo

DeepSeek-V3 0324

DeepSeek

Мощная языковая модель типа Mixture-of-Experts (MoE) с 671 млрд общих параметров (37 млрд активируется для каждого токена). Включает Multi-head Latent Attention (MLA), балансировку нагрузки без вспомогательных потерь и обучение с предсказанием нескольких токенов. Предварительно обучена на 14,8 трлн токенов с высокой производительностью в задачах логического мышления, математики и программирования.

Основные характеристики

Параметры
671.0B
Контекст
-
Дата выпуска
25 марта 2025 г.
Средний балл
70.4%

Временная шкала

Ключевые даты в истории модели
Анонс
25 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
671.0B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ
GPQA
Pass@1 Метрика, которая измеряет процент задач, которые модель решает правильно с первой попытки, без возможности нескольких проходов или самопроверки. Представляет собой наиболее строгий тест способностей модели, так как оценивает только первоначальные ответы без дополнительных рассуждений или повторных попыток.Self-reported
68.4%

Другие тесты

Специализированные бенчмарки
AIME 2024
Pass@1 Метрика "Pass@1" измеряет частоту, с которой модель решает задачу с первой попытки. Это важный показатель качества модели в задачах программирования и математики. В контексте оценки языковых моделей для программирования, Pass@1 означает процент тестовых задач, которые модель успешно решает с первой попытки, создавая код, проходящий все тесты без доработок. Эта метрика отражает способность модели генерировать правильное решение сразу, что критично в реальных сценариях использования. Для математических задач Pass@1 показывает, насколько часто модель получает верный ответ с первой попытки, без возможности пересмотреть или скорректировать своё решение. В отличие от других метрик, таких как Pass@k (где допускается выбор лучшего из k попыток), Pass@1 предъявляет более строгие требования, исключая возможность "угадывания" или множественных попыток. Высокий показатель Pass@1 свидетельствует о надёжности и точности модели, что особенно ценно для практического применения.Self-reported
59.4%
LiveCodeBench
Pass@1 Эта метрика оценивает процент примеров задач, которые модель может решить с первой попытки. Это обеспечивает простую и непосредственную оценку точности модели, но при этом игнорирует более слабые сигналы, такие как множественные подходы или способность модели к постепенному приближению к решению. Pass@1 можно вычислить непосредственно из одного запуска теста, но часто он также оценивается с помощью метода pass@k, который запускает модель k раз на каждом примере, а затем определяет, решила ли модель пример хотя бы один раз. Затем это можно преобразовать в pass@1, предполагая, что вероятность решения задачи не меняется между попытками.Self-reported
49.2%
MATH-500
Pass@1 Это метрика, которая показывает вероятность того, что модель решит задачу с первой попытки. Она рассчитывается как доля успешных решений при одной попытке. Если мы запустим модель n раз и получим n ответов на одну и ту же задачу, Pass@1 оценивает вероятность того, что случайно выбранный ответ будет правильным. Это даёт нам представление о "средней" производительности модели. Для вычисления Pass@1 мы: 1. Запускаем модель n раз для одной задачи 2. Считаем количество правильных ответов k 3. Pass@1 = k/n Например, если модель решает задачу правильно в 2 случаях из 10, то Pass@1 = 0.2 или 20%.Self-reported
94.0%
MMLU-Pro
Точное совпадение AI: 1 Данный метод оценки использует строгое сравнение между ответом модели и эталонным ответом. Ответ считается правильным только в том случае, если он точно соответствует эталонному ответу с учетом регистра символов. Такой подход полезен для задач, где существует единственный правильный ответ, например, в математических вычислениях с одним числовым результатом. Однако этот метод имеет существенные ограничения. Во-первых, он не допускает никаких вариаций в формулировках ответа, даже если они семантически эквивалентны. Например, если эталонный ответ "5", а модель отвечает "пять" или "5.0", это будет считаться неправильным. Во-вторых, при сложных ответах, требующих пояснений или рассуждений, этот метод не учитывает глубину понимания или правильность хода мыслей модели. Поэтому точное совпадение обычно используется только для простых задач или в сочетании с другими методами оценки, чтобы обеспечить более полное представление о производительности модели.Self-reported
81.2%

Лицензия и метаданные

Лицензия
mit_+_model_license_(commercial_use_allowed)
Дата анонса
25 марта 2025 г.
Последнее обновление
19 июля 2025 г.