DeepSeek R1 Distill Qwen 14B

DeepSeek

DeepSeek-R1 — это модель рассуждений первого поколения, построенная на основе DeepSeek-V3 (671 миллиард общих параметров, 37 миллиардов активированных на токен). Она использует крупномасштабное обучение с подкреплением (RL) для улучшения своих способностей к цепочке рассуждений и логическому мышлению, демонстрируя высокую производительность в задачах математики, программирования и многоэтапных рассуждений.

Основные характеристики

Параметры

14.8B

Контекст

Дата выпуска

20 января 2025 г.

Средний балл

71.5%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

14.8B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

# Diamond, Pass@1 Pass@1 — это мера того, насколько успешно модель решает задачи при наличии одной попытки. В данном случае "Pass@1" обозначает долю задач, которые модель успешно решает с первой попытки. Это важный показатель для оценки способности модели правильно решать задачи без необходимости нескольких итераций. В контексте математических задач Pass@1 означает процент задач, для которых модель с первой попытки предоставляет правильное решение и ответ. Этот показатель особенно актуален в реальных сценариях использования, где пользователи часто рассчитывают на получение правильного ответа сразу, без необходимости повторных запросов или корректировок. В отличие от других метрик, таких как Pass@k (где учитывается успешность решения при k попытках), Pass@1 является более строгим критерием, поскольку не допускает возможности исправления ошибок или уточнения подхода к решению задачи. • Self-reported

59.1%

Другие тесты

Специализированные бенчмарки

AIME 2024

Cons@64 AI: Я начну с краткого обзора метода "Cons@64". Метод "Cons@64" подразумевает выборку 64 мнений от модели и их агрегирование для формирования окончательного ответа, вдохновленный работой Консенсус (Chen et al., 2023). Мы используем следующие инструкции для выборки мнений от модели: ИНСТРУКЦИЯ: Решите следующую задачу [задача]. Пожалуйста, тщательно шаг за шагом обдумайте решение и предоставьте ответ в формате "ОТВЕТ: X". Мы собираем 64 ответа от модели. Как описано в Консенсус, мы используем первое числовое значение, которое появляется после "ОТВЕТ:" в качестве окончательного ответа модели. Затем, мы определяем большинство из этих 64 ответов как итоговый ответ. В случае ничьей мы случайным образом выбираем ответ из тех, что имеют большинство. • Self-reported

80.0%

LiveCodeBench

Pass@1 AI, а особенно большие языковые модели, часто решают задачи методом проб и ошибок. Модель пытается решить задачу несколько раз, и если ей удается найти правильное решение в одной из попыток, мы считаем, что модель способна решить эту задачу. Pass@1 оценивает вероятность того, что модель найдет правильный ответ с первой попытки. Эта метрика может быть рассчитана на основе Pass@k для случаев, когда модель генерирует k различных решений. Например, если модель решает задачу правильно в 40% случаев из 10 попыток, мы можем оценить вероятность успеха с первой попытки как 40%. • Self-reported

53.1%

MATH-500

Pass@1 Pass@1 - это метрика, которая измеряет долю задач, решенных моделью с первой попытки. Для заданной модели, набора задач и программы-оценщика, Pass@1 рассчитывается следующим образом: 1) Для каждой задачи в наборе модель генерирует одно решение, которое затем оценивается. Доля задач, для которых модель сгенерировала правильное решение с первой попытки, и есть Pass@1. Pass@1 полезна для оценки того, насколько хорошо модель справляется с задачами "с листа", без возможности делать несколько попыток. Однако эта метрика может значительно недооценивать истинные способности модели, поскольку она не учитывает, что модель может знать несколько разных подходов к решению задачи или иметь некоторые неточности в реализации даже при правильном понимании решения. • Self-reported

93.9%

Лицензия и метаданные

Лицензия

mit

Дата анонса

20 января 2025 г.

Последнее обновление

19 июля 2025 г.