DeepSeek logo

DeepSeek R1 Zero

DeepSeek

DeepSeek-R1-Zero, модель, обученная с использованием крупномасштабного обучения с подкреплением (RL) без предварительного этапа контролируемой настройки (SFT), продемонстрировала замечательную производительность в рассуждениях. Благодаря RL, DeepSeek-R1-Zero естественным образом развила множество мощных и интересных поведенческих паттернов рассуждений. Однако DeepSeek-R1-Zero сталкивается с такими проблемами, как бесконечные повторения, плохая читаемость и смешение языков. Для решения этих проблем и дальнейшего улучшения производительности рассуждений мы представляем DeepSeek-R1, которая включает данные холодного старта перед RL. DeepSeek-R1 достигает производительности, сопоставимой с OpenAI-o1, в задачах математики, программирования и рассуждений.

Основные характеристики

Параметры
671.0B
Контекст
-
Дата выпуска
20 января 2025 г.
Средний балл
76.5%

Временная шкала

Ключевые даты в истории модели
Анонс
20 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
671.0B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Файн-тюнинг от
deepseek-v3
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ
GPQA
Pass@1 Diamond AI: Я проведу детальный анализ вопроса с использованием подхода разбиения на подзадачи. Шаг 1: Проанализируем вопрос, чтобы понять задачу. Шаг 2: Разобьем решение на ключевые компоненты и промежуточные вычисления. Шаг 3: Тщательно решим каждую часть, отслеживая шаги. Шаг 4: Проверим все вычисления на предмет ошибок. Шаг 5: Объединим результаты и представим окончательный ответ. Этот структурированный подход позволяет мне минимизировать ошибки, сохраняя ясность рассуждений. При решении сложных задач я буду показывать всю цепочку рассуждений, чтобы было понятно, как я пришел к ответу.Self-reported
73.3%

Другие тесты

Специализированные бенчмарки
AIME 2024
Cons@64 AI: AIME 2023-11 Кажется, это аббревиатура и год. Я должен определить, что это такое. AIME — это конкурс по математике для старшеклассников в США, American Invitational Mathematics Examination. Это второй уровень в серии экзаменов AMC, которые выявляют самых талантливых учеников по математике. А 2023-11 должно указывать на конкретный тест, возможно, это 11-й вопрос из теста AIME 2023 года. AIME — это трудный тест. Каждый вопрос — это задача, ответом на которую является целое число от 0 до 999. У экзаменуемых есть 3 часа на решение 15 вопросов. Вопросы обычно требуют творческого применения знаний по алгебре, геометрии, теории чисел и комбинаторике. Итак, мне нужно решить 11-й вопрос из AIME 2023.Self-reported
86.7%
LiveCodeBench
Pass@1 Метрика Pass@1 представляет собой долю задач, которые модель может решить с первой попытки. При оценке Pass@1 модель получает одну попытку для решения каждой задачи, и успешное решение с первой попытки засчитывается как положительный результат. Эта метрика особенно важна в контекстах, где критично получить правильный ответ с первого раза, например, в ситуациях реального применения, когда пользователи полагаются на немедленную точность модели. Pass@1 может быть особенно строгой метрикой для сложных задач, поскольку она не допускает нескольких попыток или исправлений. Это делает её хорошим индикатором базовой надёжности модели.Self-reported
50.0%
MATH-500
# Pass@1 Pass@1 — это метрика для оценки эффективности модели при решении задач, где решение может быть проверено. Она представляет собой вероятность получения правильного решения за один проход, без повторных попыток. Если у нас есть возможность генерировать k различных решений и проверять их правильность, мы можем оценить Pass@1, запрашивая у модели k решений, а затем подсчитывая, как часто хотя бы одно из этих k решений оказывается верным. Однако при оценке Pass@1 мы хотим понять, какова вероятность того, что модель даст правильный ответ с первой попытки, а не с k попыток. Поэтому для получения несмещенной оценки Pass@1 используется следующая формула: Pass@1 = Pass@k × (1/k) где Pass@k — доля случаев, когда хотя бы одно из k сгенерированных решений оказывается верным. Эта метрика позволяет оценить реальную способность модели генерировать правильные ответы с первой попытки, даже если для ее измерения используется генерация нескольких ответов.Self-reported
95.9%

Лицензия и метаданные

Лицензия
mit
Дата анонса
20 января 2025 г.
Последнее обновление
19 июля 2025 г.