DeepSeek R1 Distill Qwen 14B
DeepSeek-R1 — это модель рассуждений первого поколения, построенная на основе DeepSeek-V3 (671 миллиард общих параметров, 37 миллиардов активированных на токен). Она использует крупномасштабное обучение с подкреплением (RL) для улучшения своих способностей к цепочке рассуждений и логическому мышлению, демонстрируя высокую производительность в задачах математики, программирования и многоэтапных рассуждений.
Основные характеристики
Параметры
14.8B
Контекст
-
Дата выпуска
20 января 2025 г.
Средний балл
71.5%
Временная шкала
Ключевые даты в истории модели
Анонс
20 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
14.8B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
# Diamond, Pass@1
Pass@1 — это мера того, насколько успешно модель решает задачи при наличии одной попытки. В данном случае "Pass@1" обозначает долю задач, которые модель успешно решает с первой попытки. Это важный показатель для оценки способности модели правильно решать задачи без необходимости нескольких итераций.
В контексте математических задач Pass@1 означает процент задач, для которых модель с первой попытки предоставляет правильное решение и ответ. Этот показатель особенно актуален в реальных сценариях использования, где пользователи часто рассчитывают на получение правильного ответа сразу, без необходимости повторных запросов или корректировок.
В отличие от других метрик, таких как Pass@k (где учитывается успешность решения при k попытках), Pass@1 является более строгим критерием, поскольку не допускает возможности исправления ошибок или уточнения подхода к решению задачи. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
Cons@64
AI: Я начну с краткого обзора метода "Cons@64".
Метод "Cons@64" подразумевает выборку 64 мнений от модели и их агрегирование для формирования окончательного ответа, вдохновленный работой Консенсус (Chen et al., 2023). Мы используем следующие инструкции для выборки мнений от модели:
ИНСТРУКЦИЯ: Решите следующую задачу [задача]. Пожалуйста, тщательно шаг за шагом обдумайте решение и предоставьте ответ в формате "ОТВЕТ: X".
Мы собираем 64 ответа от модели. Как описано в Консенсус, мы используем первое числовое значение, которое появляется после "ОТВЕТ:" в качестве окончательного ответа модели. Затем, мы определяем большинство из этих 64 ответов как итоговый ответ. В случае ничьей мы случайным образом выбираем ответ из тех, что имеют большинство. • Self-reported
LiveCodeBench
Pass@1
AI, а особенно большие языковые модели, часто решают задачи методом проб и ошибок. Модель пытается решить задачу несколько раз, и если ей удается найти правильное решение в одной из попыток, мы считаем, что модель способна решить эту задачу.
Pass@1 оценивает вероятность того, что модель найдет правильный ответ с первой попытки. Эта метрика может быть рассчитана на основе Pass@k для случаев, когда модель генерирует k различных решений.
Например, если модель решает задачу правильно в 40% случаев из 10 попыток, мы можем оценить вероятность успеха с первой попытки как 40%. • Self-reported
MATH-500
Pass@1
Pass@1 - это метрика, которая измеряет долю задач, решенных моделью с первой попытки. Для заданной модели, набора задач и программы-оценщика, Pass@1 рассчитывается следующим образом:
1) Для каждой задачи в наборе модель генерирует одно решение, которое затем оценивается. Доля задач, для которых модель сгенерировала правильное решение с первой попытки, и есть Pass@1.
Pass@1 полезна для оценки того, насколько хорошо модель справляется с задачами "с листа", без возможности делать несколько попыток. Однако эта метрика может значительно недооценивать истинные способности модели, поскольку она не учитывает, что модель может знать несколько разных подходов к решению задачи или иметь некоторые неточности в реализации даже при правильном понимании решения. • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
20 января 2025 г.
Последнее обновление
19 июля 2025 г.