DeepSeek logo

DeepSeek R1 Distill Qwen 14B

DeepSeek

DeepSeek-R1 — это модель рассуждений первого поколения, построенная на основе DeepSeek-V3 (671 миллиард общих параметров, 37 миллиардов активированных на токен). Она использует крупномасштабное обучение с подкреплением (RL) для улучшения своих способностей к цепочке рассуждений и логическому мышлению, демонстрируя высокую производительность в задачах математики, программирования и многоэтапных рассуждений.

Основные характеристики

Параметры
14.8B
Контекст
-
Дата выпуска
20 января 2025 г.
Средний балл
71.5%

Временная шкала

Ключевые даты в истории модели
Анонс
20 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
14.8B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ
GPQA
# Diamond, Pass@1 Pass@1 — это мера того, насколько успешно модель решает задачи при наличии одной попытки. В данном случае "Pass@1" обозначает долю задач, которые модель успешно решает с первой попытки. Это важный показатель для оценки способности модели правильно решать задачи без необходимости нескольких итераций. В контексте математических задач Pass@1 означает процент задач, для которых модель с первой попытки предоставляет правильное решение и ответ. Этот показатель особенно актуален в реальных сценариях использования, где пользователи часто рассчитывают на получение правильного ответа сразу, без необходимости повторных запросов или корректировок. В отличие от других метрик, таких как Pass@k (где учитывается успешность решения при k попытках), Pass@1 является более строгим критерием, поскольку не допускает возможности исправления ошибок или уточнения подхода к решению задачи.Self-reported
59.1%

Другие тесты

Специализированные бенчмарки
AIME 2024
Cons@64 AI: Я начну с краткого обзора метода "Cons@64". Метод "Cons@64" подразумевает выборку 64 мнений от модели и их агрегирование для формирования окончательного ответа, вдохновленный работой Консенсус (Chen et al., 2023). Мы используем следующие инструкции для выборки мнений от модели: ИНСТРУКЦИЯ: Решите следующую задачу [задача]. Пожалуйста, тщательно шаг за шагом обдумайте решение и предоставьте ответ в формате "ОТВЕТ: X". Мы собираем 64 ответа от модели. Как описано в Консенсус, мы используем первое числовое значение, которое появляется после "ОТВЕТ:" в качестве окончательного ответа модели. Затем, мы определяем большинство из этих 64 ответов как итоговый ответ. В случае ничьей мы случайным образом выбираем ответ из тех, что имеют большинство.Self-reported
80.0%
LiveCodeBench
Pass@1 AI, а особенно большие языковые модели, часто решают задачи методом проб и ошибок. Модель пытается решить задачу несколько раз, и если ей удается найти правильное решение в одной из попыток, мы считаем, что модель способна решить эту задачу. Pass@1 оценивает вероятность того, что модель найдет правильный ответ с первой попытки. Эта метрика может быть рассчитана на основе Pass@k для случаев, когда модель генерирует k различных решений. Например, если модель решает задачу правильно в 40% случаев из 10 попыток, мы можем оценить вероятность успеха с первой попытки как 40%.Self-reported
53.1%
MATH-500
Pass@1 Pass@1 - это метрика, которая измеряет долю задач, решенных моделью с первой попытки. Для заданной модели, набора задач и программы-оценщика, Pass@1 рассчитывается следующим образом: 1) Для каждой задачи в наборе модель генерирует одно решение, которое затем оценивается. Доля задач, для которых модель сгенерировала правильное решение с первой попытки, и есть Pass@1. Pass@1 полезна для оценки того, насколько хорошо модель справляется с задачами "с листа", без возможности делать несколько попыток. Однако эта метрика может значительно недооценивать истинные способности модели, поскольку она не учитывает, что модель может знать несколько разных подходов к решению задачи или иметь некоторые неточности в реализации даже при правильном понимании решения.Self-reported
93.9%

Лицензия и метаданные

Лицензия
mit
Дата анонса
20 января 2025 г.
Последнее обновление
19 июля 2025 г.