DeepSeek R1 Zero

DeepSeek

DeepSeek-R1-Zero, модель, обученная с использованием крупномасштабного обучения с подкреплением (RL) без предварительного этапа контролируемой настройки (SFT), продемонстрировала замечательную производительность в рассуждениях. Благодаря RL, DeepSeek-R1-Zero естественным образом развила множество мощных и интересных поведенческих паттернов рассуждений. Однако DeepSeek-R1-Zero сталкивается с такими проблемами, как бесконечные повторения, плохая читаемость и смешение языков. Для решения этих проблем и дальнейшего улучшения производительности рассуждений мы представляем DeepSeek-R1, которая включает данные холодного старта перед RL. DeepSeek-R1 достигает производительности, сопоставимой с OpenAI-o1, в задачах математики, программирования и рассуждений.

Основные характеристики

Параметры

671.0B

Контекст

Дата выпуска

20 января 2025 г.

Средний балл

76.5%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

671.0B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Файн-тюнинг от

deepseek-v3

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Pass@1 Diamond AI: Я проведу детальный анализ вопроса с использованием подхода разбиения на подзадачи. Шаг 1: Проанализируем вопрос, чтобы понять задачу. Шаг 2: Разобьем решение на ключевые компоненты и промежуточные вычисления. Шаг 3: Тщательно решим каждую часть, отслеживая шаги. Шаг 4: Проверим все вычисления на предмет ошибок. Шаг 5: Объединим результаты и представим окончательный ответ. Этот структурированный подход позволяет мне минимизировать ошибки, сохраняя ясность рассуждений. При решении сложных задач я буду показывать всю цепочку рассуждений, чтобы было понятно, как я пришел к ответу. • Self-reported

73.3%

Другие тесты

Специализированные бенчмарки

AIME 2024

Cons@64 AI: AIME 2023-11 Кажется, это аббревиатура и год. Я должен определить, что это такое. AIME — это конкурс по математике для старшеклассников в США, American Invitational Mathematics Examination. Это второй уровень в серии экзаменов AMC, которые выявляют самых талантливых учеников по математике. А 2023-11 должно указывать на конкретный тест, возможно, это 11-й вопрос из теста AIME 2023 года. AIME — это трудный тест. Каждый вопрос — это задача, ответом на которую является целое число от 0 до 999. У экзаменуемых есть 3 часа на решение 15 вопросов. Вопросы обычно требуют творческого применения знаний по алгебре, геометрии, теории чисел и комбинаторике. Итак, мне нужно решить 11-й вопрос из AIME 2023. • Self-reported

86.7%

LiveCodeBench

Pass@1 Метрика Pass@1 представляет собой долю задач, которые модель может решить с первой попытки. При оценке Pass@1 модель получает одну попытку для решения каждой задачи, и успешное решение с первой попытки засчитывается как положительный результат. Эта метрика особенно важна в контекстах, где критично получить правильный ответ с первого раза, например, в ситуациях реального применения, когда пользователи полагаются на немедленную точность модели. Pass@1 может быть особенно строгой метрикой для сложных задач, поскольку она не допускает нескольких попыток или исправлений. Это делает её хорошим индикатором базовой надёжности модели. • Self-reported

50.0%

MATH-500

# Pass@1 Pass@1 — это метрика для оценки эффективности модели при решении задач, где решение может быть проверено. Она представляет собой вероятность получения правильного решения за один проход, без повторных попыток. Если у нас есть возможность генерировать k различных решений и проверять их правильность, мы можем оценить Pass@1, запрашивая у модели k решений, а затем подсчитывая, как часто хотя бы одно из этих k решений оказывается верным. Однако при оценке Pass@1 мы хотим понять, какова вероятность того, что модель даст правильный ответ с первой попытки, а не с k попыток. Поэтому для получения несмещенной оценки Pass@1 используется следующая формула: Pass@1 = Pass@k × (1/k) где Pass@k — доля случаев, когда хотя бы одно из k сгенерированных решений оказывается верным. Эта метрика позволяет оценить реальную способность модели генерировать правильные ответы с первой попытки, даже если для ее измерения используется генерация нескольких ответов. • Self-reported

95.9%

Лицензия и метаданные

Лицензия

mit

Дата анонса

20 января 2025 г.

Последнее обновление

19 июля 2025 г.