DeepSeek-V3 0324

DeepSeek

Мощная языковая модель типа Mixture-of-Experts (MoE) с 671 млрд общих параметров (37 млрд активируется для каждого токена). Включает Multi-head Latent Attention (MLA), балансировку нагрузки без вспомогательных потерь и обучение с предсказанием нескольких токенов. Предварительно обучена на 14,8 трлн токенов с высокой производительностью в задачах логического мышления, математики и программирования.

Основные характеристики

Параметры

671.0B

Контекст

Дата выпуска

25 марта 2025 г.

Средний балл

70.4%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

25 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

671.0B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Pass@1 Метрика, которая измеряет процент задач, которые модель решает правильно с первой попытки, без возможности нескольких проходов или самопроверки. Представляет собой наиболее строгий тест способностей модели, так как оценивает только первоначальные ответы без дополнительных рассуждений или повторных попыток. • Self-reported

68.4%

Другие тесты

Специализированные бенчмарки

AIME 2024

Pass@1 Метрика "Pass@1" измеряет частоту, с которой модель решает задачу с первой попытки. Это важный показатель качества модели в задачах программирования и математики. В контексте оценки языковых моделей для программирования, Pass@1 означает процент тестовых задач, которые модель успешно решает с первой попытки, создавая код, проходящий все тесты без доработок. Эта метрика отражает способность модели генерировать правильное решение сразу, что критично в реальных сценариях использования. Для математических задач Pass@1 показывает, насколько часто модель получает верный ответ с первой попытки, без возможности пересмотреть или скорректировать своё решение. В отличие от других метрик, таких как Pass@k (где допускается выбор лучшего из k попыток), Pass@1 предъявляет более строгие требования, исключая возможность "угадывания" или множественных попыток. Высокий показатель Pass@1 свидетельствует о надёжности и точности модели, что особенно ценно для практического применения. • Self-reported

59.4%

LiveCodeBench

Pass@1 Эта метрика оценивает процент примеров задач, которые модель может решить с первой попытки. Это обеспечивает простую и непосредственную оценку точности модели, но при этом игнорирует более слабые сигналы, такие как множественные подходы или способность модели к постепенному приближению к решению. Pass@1 можно вычислить непосредственно из одного запуска теста, но часто он также оценивается с помощью метода pass@k, который запускает модель k раз на каждом примере, а затем определяет, решила ли модель пример хотя бы один раз. Затем это можно преобразовать в pass@1, предполагая, что вероятность решения задачи не меняется между попытками. • Self-reported

49.2%

MATH-500

Pass@1 Это метрика, которая показывает вероятность того, что модель решит задачу с первой попытки. Она рассчитывается как доля успешных решений при одной попытке. Если мы запустим модель n раз и получим n ответов на одну и ту же задачу, Pass@1 оценивает вероятность того, что случайно выбранный ответ будет правильным. Это даёт нам представление о "средней" производительности модели. Для вычисления Pass@1 мы: 1. Запускаем модель n раз для одной задачи 2. Считаем количество правильных ответов k 3. Pass@1 = k/n Например, если модель решает задачу правильно в 2 случаях из 10, то Pass@1 = 0.2 или 20%. • Self-reported

94.0%

MMLU-Pro

Точное совпадение AI: 1 Данный метод оценки использует строгое сравнение между ответом модели и эталонным ответом. Ответ считается правильным только в том случае, если он точно соответствует эталонному ответу с учетом регистра символов. Такой подход полезен для задач, где существует единственный правильный ответ, например, в математических вычислениях с одним числовым результатом. Однако этот метод имеет существенные ограничения. Во-первых, он не допускает никаких вариаций в формулировках ответа, даже если они семантически эквивалентны. Например, если эталонный ответ "5", а модель отвечает "пять" или "5.0", это будет считаться неправильным. Во-вторых, при сложных ответах, требующих пояснений или рассуждений, этот метод не учитывает глубину понимания или правильность хода мыслей модели. Поэтому точное совпадение обычно используется только для простых задач или в сочетании с другими методами оценки, чтобы обеспечить более полное представление о производительности модели. • Self-reported

81.2%

Лицензия и метаданные

Лицензия

mit_+_model_license_(commercial_use_allowed)

Дата анонса

25 марта 2025 г.

Последнее обновление

19 июля 2025 г.