DeepSeek R1 Distill Llama 8B
DeepSeek-R1 — это модель рассуждений первого поколения, построенная на основе DeepSeek-V3 (671 миллиард общих параметров, 37 миллиардов активируемых на токен). Она использует крупномасштабное обучение с подкреплением (RL) для улучшения своих способностей к цепочке рассуждений и логическому мышлению, демонстрируя высокую производительность в математических задачах, программировании и многоэтапных рассуждениях.
Основные характеристики
Параметры
8.0B
Контекст
-
Дата выпуска
20 января 2025 г.
Средний балл
64.4%
Временная шкала
Ключевые даты в истории модели
Анонс
20 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
8.0B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond, Pass@1
Оценка эффективности прохождения задач с первого раза, когда модель дает правильный окончательный ответ в первой попытке, без каких-либо дополнительных подсказок или итераций. Это строгий показатель, который измеряет, насколько точно модель может решить задачу с первой попытки.
Diamond относится к методологии оценки, которая фокусируется на способности модели решать сложные задачи с первой попытки. Pass@1 означает процент задач, которые модель решила правильно с первого раза. Это важный показатель для задач, где не допускаются многократные попытки или где точность первого ответа критически важна. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
Cons@64
В Cons@64 мы расширяем подход Chain-of-Thought (CoT), активируя "размышление через консенсус", вдохновленное тем, как люди решают математические задачи: рассмотрение различных путей, обнаружение ошибок и прихождение к согласию. В нашем методе LLM (крупноязыковая модель) решает задачу k раз с различными затравками. Затем мы группируем ответы по схожести и анализируем дальнейшие цепочки рассуждений, чтобы определить, является ли консенсус действительно решением. Мы проверяем каждую цепочку рассуждений, чтобы выявить ошибки, отмечая конкретные шаги, где модель совершает ошибки.
На GPQA результаты Cons@64 сравнимы с верификацией экспертов-людей, достигая точности 0.79 на русском языке и 0.81 на английском языке, по сравнению с 0.79 у экспертов. На MMLU результаты Cons@64 даже превосходят оценки людей. • Self-reported
LiveCodeBench
Pass@1
Метрика Pass@1 измеряет долю задач, которые модель решает правильно с первой попытки. Это базовая метрика производительности, в которой модель либо находит правильный ответ с первой попытки, либо нет, отражая ситуацию, когда пользователь полагается на одиночный ответ модели, не прося нескольких попыток или итераций.
Эта метрика особенно полезна в следующих случаях:
- Оценка производительности модели в нормальных сценариях использования, где пользователь, скорее всего, примет первый ответ модели
- Понимание врожденной способности модели решать задачи без дополнительных попыток
- Предоставление прозрачной, легко интерпретируемой метрики для сравнения моделей
- Установление базового уровня производительности для улучшенных методов декодирования, таких как самосогласованность (self-consistency) или лучший из k (best-of-k)
Pass@1 является строгой метрикой, поскольку требует от модели демонстрации полностью правильного рассуждения и вывода за одну попытку. Она особенно важна для понимания производительности модели в условиях ограниченных ресурсов или времени. • Self-reported
MATH-500
Pass@1
AI • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
20 января 2025 г.
Последнее обновление
19 июля 2025 г.