DeepSeek logo

DeepSeek R1 Distill Llama 8B

DeepSeek

DeepSeek-R1 — это модель рассуждений первого поколения, построенная на основе DeepSeek-V3 (671 миллиард общих параметров, 37 миллиардов активируемых на токен). Она использует крупномасштабное обучение с подкреплением (RL) для улучшения своих способностей к цепочке рассуждений и логическому мышлению, демонстрируя высокую производительность в математических задачах, программировании и многоэтапных рассуждениях.

Основные характеристики

Параметры
8.0B
Контекст
-
Дата выпуска
20 января 2025 г.
Средний балл
64.4%

Временная шкала

Ключевые даты в истории модели
Анонс
20 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
8.0B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond, Pass@1 Оценка эффективности прохождения задач с первого раза, когда модель дает правильный окончательный ответ в первой попытке, без каких-либо дополнительных подсказок или итераций. Это строгий показатель, который измеряет, насколько точно модель может решить задачу с первой попытки. Diamond относится к методологии оценки, которая фокусируется на способности модели решать сложные задачи с первой попытки. Pass@1 означает процент задач, которые модель решила правильно с первого раза. Это важный показатель для задач, где не допускаются многократные попытки или где точность первого ответа критически важна.Self-reported
49.0%

Другие тесты

Специализированные бенчмарки
AIME 2024
Cons@64 В Cons@64 мы расширяем подход Chain-of-Thought (CoT), активируя "размышление через консенсус", вдохновленное тем, как люди решают математические задачи: рассмотрение различных путей, обнаружение ошибок и прихождение к согласию. В нашем методе LLM (крупноязыковая модель) решает задачу k раз с различными затравками. Затем мы группируем ответы по схожести и анализируем дальнейшие цепочки рассуждений, чтобы определить, является ли консенсус действительно решением. Мы проверяем каждую цепочку рассуждений, чтобы выявить ошибки, отмечая конкретные шаги, где модель совершает ошибки. На GPQA результаты Cons@64 сравнимы с верификацией экспертов-людей, достигая точности 0.79 на русском языке и 0.81 на английском языке, по сравнению с 0.79 у экспертов. На MMLU результаты Cons@64 даже превосходят оценки людей.Self-reported
80.0%
LiveCodeBench
Pass@1 Метрика Pass@1 измеряет долю задач, которые модель решает правильно с первой попытки. Это базовая метрика производительности, в которой модель либо находит правильный ответ с первой попытки, либо нет, отражая ситуацию, когда пользователь полагается на одиночный ответ модели, не прося нескольких попыток или итераций. Эта метрика особенно полезна в следующих случаях: - Оценка производительности модели в нормальных сценариях использования, где пользователь, скорее всего, примет первый ответ модели - Понимание врожденной способности модели решать задачи без дополнительных попыток - Предоставление прозрачной, легко интерпретируемой метрики для сравнения моделей - Установление базового уровня производительности для улучшенных методов декодирования, таких как самосогласованность (self-consistency) или лучший из k (best-of-k) Pass@1 является строгой метрикой, поскольку требует от модели демонстрации полностью правильного рассуждения и вывода за одну попытку. Она особенно важна для понимания производительности модели в условиях ограниченных ресурсов или времени.Self-reported
39.6%
MATH-500
Pass@1 AISelf-reported
89.1%

Лицензия и метаданные

Лицензия
mit
Дата анонса
20 января 2025 г.
Последнее обновление
19 июля 2025 г.