DeepSeek-V3 0324
Мощная языковая модель типа Mixture-of-Experts (MoE) с 671 млрд общих параметров (37 млрд активируется для каждого токена). Включает Multi-head Latent Attention (MLA), балансировку нагрузки без вспомогательных потерь и обучение с предсказанием нескольких токенов. Предварительно обучена на 14,8 трлн токенов с высокой производительностью в задачах логического мышления, математики и программирования.
Основные характеристики
Параметры
671.0B
Контекст
-
Дата выпуска
25 марта 2025 г.
Средний балл
70.4%
Временная шкала
Ключевые даты в истории модели
Анонс
25 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
671.0B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
Pass@1
Метрика, которая измеряет процент задач, которые модель решает правильно с первой попытки, без возможности нескольких проходов или самопроверки. Представляет собой наиболее строгий тест способностей модели, так как оценивает только первоначальные ответы без дополнительных рассуждений или повторных попыток. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
Pass@1
Метрика "Pass@1" измеряет частоту, с которой модель решает задачу с первой попытки. Это важный показатель качества модели в задачах программирования и математики.
В контексте оценки языковых моделей для программирования, Pass@1 означает процент тестовых задач, которые модель успешно решает с первой попытки, создавая код, проходящий все тесты без доработок. Эта метрика отражает способность модели генерировать правильное решение сразу, что критично в реальных сценариях использования.
Для математических задач Pass@1 показывает, насколько часто модель получает верный ответ с первой попытки, без возможности пересмотреть или скорректировать своё решение.
В отличие от других метрик, таких как Pass@k (где допускается выбор лучшего из k попыток), Pass@1 предъявляет более строгие требования, исключая возможность "угадывания" или множественных попыток.
Высокий показатель Pass@1 свидетельствует о надёжности и точности модели, что особенно ценно для практического применения. • Self-reported
LiveCodeBench
Pass@1
Эта метрика оценивает процент примеров задач, которые модель может решить с первой попытки. Это обеспечивает простую и непосредственную оценку точности модели, но при этом игнорирует более слабые сигналы, такие как множественные подходы или способность модели к постепенному приближению к решению.
Pass@1 можно вычислить непосредственно из одного запуска теста, но часто он также оценивается с помощью метода pass@k, который запускает модель k раз на каждом примере, а затем определяет, решила ли модель пример хотя бы один раз. Затем это можно преобразовать в pass@1, предполагая, что вероятность решения задачи не меняется между попытками. • Self-reported
MATH-500
Pass@1
Это метрика, которая показывает вероятность того, что модель решит задачу с первой попытки. Она рассчитывается как доля успешных решений при одной попытке.
Если мы запустим модель n раз и получим n ответов на одну и ту же задачу, Pass@1 оценивает вероятность того, что случайно выбранный ответ будет правильным. Это даёт нам представление о "средней" производительности модели.
Для вычисления Pass@1 мы:
1. Запускаем модель n раз для одной задачи
2. Считаем количество правильных ответов k
3. Pass@1 = k/n
Например, если модель решает задачу правильно в 2 случаях из 10, то Pass@1 = 0.2 или 20%. • Self-reported
MMLU-Pro
Точное совпадение
AI: 1
Данный метод оценки использует строгое сравнение между ответом модели и эталонным ответом. Ответ считается правильным только в том случае, если он точно соответствует эталонному ответу с учетом регистра символов. Такой подход полезен для задач, где существует единственный правильный ответ, например, в математических вычислениях с одним числовым результатом.
Однако этот метод имеет существенные ограничения. Во-первых, он не допускает никаких вариаций в формулировках ответа, даже если они семантически эквивалентны. Например, если эталонный ответ "5", а модель отвечает "пять" или "5.0", это будет считаться неправильным. Во-вторых, при сложных ответах, требующих пояснений или рассуждений, этот метод не учитывает глубину понимания или правильность хода мыслей модели.
Поэтому точное совпадение обычно используется только для простых задач или в сочетании с другими методами оценки, чтобы обеспечить более полное представление о производительности модели. • Self-reported
Лицензия и метаданные
Лицензия
mit_+_model_license_(commercial_use_allowed)
Дата анонса
25 марта 2025 г.
Последнее обновление
19 июля 2025 г.