DeepSeek R1 Distill Llama 8B

DeepSeek

DeepSeek-R1 — это модель рассуждений первого поколения, построенная на основе DeepSeek-V3 (671 миллиард общих параметров, 37 миллиардов активируемых на токен). Она использует крупномасштабное обучение с подкреплением (RL) для улучшения своих способностей к цепочке рассуждений и логическому мышлению, демонстрируя высокую производительность в математических задачах, программировании и многоэтапных рассуждениях.

Основные характеристики

Параметры

8.0B

Контекст

Дата выпуска

20 января 2025 г.

Средний балл

64.4%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

8.0B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond, Pass@1 Оценка эффективности прохождения задач с первого раза, когда модель дает правильный окончательный ответ в первой попытке, без каких-либо дополнительных подсказок или итераций. Это строгий показатель, который измеряет, насколько точно модель может решить задачу с первой попытки. Diamond относится к методологии оценки, которая фокусируется на способности модели решать сложные задачи с первой попытки. Pass@1 означает процент задач, которые модель решила правильно с первого раза. Это важный показатель для задач, где не допускаются многократные попытки или где точность первого ответа критически важна. • Self-reported

49.0%

Другие тесты

Специализированные бенчмарки

AIME 2024

Cons@64 В Cons@64 мы расширяем подход Chain-of-Thought (CoT), активируя "размышление через консенсус", вдохновленное тем, как люди решают математические задачи: рассмотрение различных путей, обнаружение ошибок и прихождение к согласию. В нашем методе LLM (крупноязыковая модель) решает задачу k раз с различными затравками. Затем мы группируем ответы по схожести и анализируем дальнейшие цепочки рассуждений, чтобы определить, является ли консенсус действительно решением. Мы проверяем каждую цепочку рассуждений, чтобы выявить ошибки, отмечая конкретные шаги, где модель совершает ошибки. На GPQA результаты Cons@64 сравнимы с верификацией экспертов-людей, достигая точности 0.79 на русском языке и 0.81 на английском языке, по сравнению с 0.79 у экспертов. На MMLU результаты Cons@64 даже превосходят оценки людей. • Self-reported

80.0%

LiveCodeBench

Pass@1 Метрика Pass@1 измеряет долю задач, которые модель решает правильно с первой попытки. Это базовая метрика производительности, в которой модель либо находит правильный ответ с первой попытки, либо нет, отражая ситуацию, когда пользователь полагается на одиночный ответ модели, не прося нескольких попыток или итераций. Эта метрика особенно полезна в следующих случаях: - Оценка производительности модели в нормальных сценариях использования, где пользователь, скорее всего, примет первый ответ модели - Понимание врожденной способности модели решать задачи без дополнительных попыток - Предоставление прозрачной, легко интерпретируемой метрики для сравнения моделей - Установление базового уровня производительности для улучшенных методов декодирования, таких как самосогласованность (self-consistency) или лучший из k (best-of-k) Pass@1 является строгой метрикой, поскольку требует от модели демонстрации полностью правильного рассуждения и вывода за одну попытку. Она особенно важна для понимания производительности модели в условиях ограниченных ресурсов или времени. • Self-reported

39.6%

MATH-500

Pass@1 AI • Self-reported

89.1%

Лицензия и метаданные

Лицензия

mit

Дата анонса

20 января 2025 г.

Последнее обновление

19 июля 2025 г.