DeepSeek-R1

DeepSeek

DeepSeek-R1 — это первое поколение модели рассуждений, построенной на базе DeepSeek-V3 (671 миллиард параметров всего, 37 миллиардов активируется на токен). Она включает крупномасштабное обучение с подкреплением (RL) для улучшения своих способностей к цепочечным рассуждениям и логическому мышлению, демонстрируя высокую производительность в математических задачах, программировании и многошаговых рассуждениях.

Основные характеристики

Параметры

671.0B

Контекст

131.1K

Дата выпуска

20 января 2025 г.

Средний балл

74.1%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

671.0B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Файн-тюнинг от

deepseek-v3

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$7.00

Выход (за 1М токенов)

$7.00

Макс. входящих токенов

131.1K

Макс. исходящих токенов

131.1K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Pass@1 Это метрика, используемая для оценки вероятности того, что модель сгенерирует правильный ответ с первой попытки. Технически это процент вопросов, на которые модель отвечает правильно с первого раза. В отличие от Pass@k (k > 1), эта метрика не предполагает использования нескольких попыток с последующим выбором лучшего ответа. Pass@1 оценивает прямую способность модели давать правильные ответы без дополнительных шансов. Pass@1 считается строгой метрикой производительности, поскольку она не допускает исправления ошибок с помощью дополнительных попыток. Она особенно полезна для оценки моделей в реальных сценариях, где обычно есть только одна возможность дать правильный ответ. • Self-reported

90.8%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

# Разрешение конфликтов Разрешение конфликтов (или "решение") происходит, когда исходный запрос разделяется на несколько подзадач, которые помогают собрать информацию для принятия решения или получения окончательного вывода. Разрешение может включать: - **Перечисление различных фактов**: Перечисление ключевых фактов для поддержки или опровержения утверждения. - **Выявление ограничений**: Определение ключевых ограничений, которые могут повлиять на решение. - **Определение условий**: Выявление условий, при которых решение будет действительным. - **Структурирование мышления**: Организация мыслительного процесса в логические этапы. Когда модель сталкивается с запросом, требующим сбалансированного рассмотрения или решения, где нет очевидного ответа, она может применить разрешение, чтобы прийти к обоснованному выводу. **Примеры разрешения:** - Структурирование аргументов "за" и "против" для принятия решения. - Анализ задачи с учетом всех ее ограничений. - Создание последовательных шагов для разрешения противоречий. Стратегия разрешения обычно применяется в ситуациях, где есть несколько возможных путей или подходов, и модель должна взвесить их для получения окончательного вывода. • Self-reported

49.2%

Рассуждения

Логические рассуждения и анализ

DROP

3-shot F1 Метод трехэтапной F1-оценки, где модель сначала выполняет задачу, затем решает её снова с доступом к правильному ответу, и наконец оценивает свою работу, сравнивая первый ответ с истинным ответом. Результаты F1-оценки сравниваются с автоматически вычисленной F1-оценкой. В дополнение к оценке на уровне задачи, этот метод предоставляет более подробное понимание производительности модели, выявляя и категоризируя ложноположительные и ложноотрицательные ответы. Этот процесс дает представление о том, как модель оценивает себя по сравнению с объективными метриками, что потенциально помогает идентифицировать области, где модель может быть чрезмерно или недостаточно уверенной в своих способностях. • Self-reported

92.2%

GPQA

Pass@1 Diamond AI: # Pass@1 Diamond Pass@1 Diamond - это метрика для оценки способности языковой модели решать задачи. Она определяет, насколько успешно модель может решить проблему после однократной попытки. ## Почему это важно Способность решать задачи с первой попытки является ключевым показателем для моделей искусственного интеллекта. В реальных сценариях использования у пользователей часто нет времени или ресурсов для повторных попыток или уточнения ответов. Метрика Pass@1 Diamond отражает "мгновенную" способность модели правильно решать проблемы. ## Как это работает 1. Модели предоставляется задача, которую необходимо решить 2. Модель генерирует одно решение 3. Оценка: - 1.0 (успех), если решение правильное - 0.0 (неудача), если решение неправильное ## Разница с Pass@k В отличие от стандартной метрики Pass@k, где модели разрешается сделать k попыток для решения задачи, Pass@1 Diamond оценивает только первое и единственное решение. Это исключает элемент случайности и более строго оценивает способность модели к размышлению и рассуждению. ## Применение Pass@1 Diamond особенно полезна для оценки: - Точности решения математических задач - Логического рассуждения - Программирования - Решения научных проблем Эта метрика помогает выявить модели, которые действительно "понимают" задачу, а не просто генерируют множество возможных ответов в надежде, что один из них окажется правильным. • Self-reported

71.5%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Точность AI: Artificial intelligence demonstrated an ability to correctly solve and reason about complex multi-step problems. The model was able to identify and correctly apply mathematical principles and theorems to solve problems in algebra, calculus, and probability. It demonstrated strong performance in both computational tasks (e.g., evaluating integrals, solving equations) and conceptual understanding (e.g., identifying appropriate solution approaches, recognizing mathematical patterns). • Self-reported

53.3%

AIME 2024

Pass@1 Это метрика, используемая для оценки эффективности решения задач искусственным интеллектом. Pass@1 измеряет вероятность того, что модель сможет правильно решить задачу с первой попытки, без необходимости генерировать несколько решений и выбирать из них лучшее. В отличие от более сложных методов оценки, таких как Pass@k, Pass@1 оценивает способность модели сразу генерировать правильное решение. Эта метрика особенно важна для практических приложений, где пользователям нужны немедленные и точные ответы без необходимости человеческой проверки или выбора из нескольких вариантов. Высокий показатель Pass@1 указывает на то, что модель обладает надежными возможностями рассуждения и может применять свои знания для решения новых проблем за один шаг, что является ключевым аспектом интеллектуального поведения. • Self-reported

79.8%

AlpacaEval 2.0

LC-winrate Данный метод измерения эффективности создает симулированные математические соревнования между LLM на определенном наборе математических задач. LLM оцениваются на основе их относительной производительности (против других LLM) на этих задачах, используя игру с нулевой суммой. Данный метод был использован для тщательного сравнения моделей Claude 3, Gemini, GPT-4 и GPT-4o. Метод основан на предположении, что хотя LLM могут одинаково выполнять математические задачи в абсолютном выражении, некоторые модели лучше справляются с одними типами задач, а другие — с другими. Задания включают математические головоломки из реальных соревнований. Метод рассматривает решения, которые дают разные модели для различных математических задач, и фиксирует, когда модели не согласны друг с другом. Эти разногласия предоставляют ценную информацию о сравнительных способностях моделей. Кроме того, метод позволяет выявить систематические ошибки в математических способностях LLM. Оценивая все случаи, когда две модели дают разные ответы на одинаковые задачи, и определяя, какой ответ верен, мы получаем меру относительной производительности разных моделей. • Self-reported

87.6%

ARC-AGI v2

точность • Verified

1.3%

Arena Hard

GPT-4-1106 - это самая эффективная коммерчески доступная модель OpenAI на момент проведения нашего исследования. Мы использовали эту модель в качестве базового уровня. В отличие от Claude 3 Opus и Claude 3 Sonnet, OpenAI рекомендует для этой модели значение temperature 0.7, что мы и применили. Однако для проверки мы также провели оценку GPT-4-1106 со значением temperature 0.0, чтобы обеспечить полное сравнение без влияния температуры. • Self-reported

92.3%

C-Eval

Точное соответствие AI ## Методология анализа GPQA По соображениям эффективности использования компьютерных ресурсов, я решил отобрать случайным образом подмножество вопросов из каждой области, чтобы получить итоговую выборку приблизительно из 500 вопросов. Затем я сопоставил ответы, данные каждой моделью, с эталонными ответами, предоставленными GPQA. При этом я использовал несколько различных метрик соответствия. ### Точное соответствие Точное соответствие — это самая строгая форма оценки. В случае GPQA эталонным ответом обычно является одно число или короткая строка символов. Считается, что модель дала точное соответствие, если в ее ответе присутствует строка, которая точно совпадает с эталонным ответом. Например, если эталонный ответ — "87", то модель получит оценку "точное соответствие", если ее ответ содержит "87" (независимо от форматирования или дополнительных деталей в ответе). • Self-reported

91.8%

CLUEWSC

Точное соответствие AI: ChatGPT + AutoExpert (Claude) The task requires you to measure how frequently the model makes errors: mistaking similar-looking formulas, dropping negative signs, etc. Method: 1. I'll define a systematic way to check if answers match: a. First, I must standardize the expressions (remove whitespace, simplify fractions) b. Check for exact match between standardized answers 2. I'll compare my answer with the given answer by: - Converting to a canonical form where possible - Using numerical evaluation with test values for variables - Checking symbolic equivalence for complex expressions 3. For definite numerical answers, I'll use exact matching after accounting for: - Different but equivalent ways to express the same number (e.g., 0.5 vs 1/2) - Rounding differences - Different but equivalent forms (e.g., π vs 3.14159) 4. For expressions with variables, I'll verify equivalence by: - Algebraic manipulation - Evaluating at several test points - Checking if the difference of expressions equals zero This approach ensures I detect genuine differences while accounting for superficially different but mathematically equivalent expressions. • Self-reported

92.8%

CNMO 2024

Pass@1 Метрика для оценки успешности LLM в решении задач. Она измеряет, какой процент правильных решений модель может получить, когда делает только одну попытку для каждой задачи. В этой метрике модель должна предоставить точное решение с первой попытки, без нескольких проб или повторных проходов. Она наиболее полезна для оценки способности модели решать задачи без итераций. Эта метрика становится особенно значимой при оценке моделей на сложных задачах, где требуется точность рассуждений, например, в математических задачах или задачах по программированию. • Self-reported

78.8%

CSimpleQA

Правильный • Self-reported

63.7%

FRAMES

Точность AI Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. • Self-reported

82.5%

IFEval

# Строгие промпты: структура и соответствие ## Реализация строгих промптов Мы реализуем строгие промпты (SP) как особый формат ввода с четко определенной схемой. Инструкции в строгом промпте определяют: 1. **Структуру вывода** — какой формат и организацию должен иметь ответ модели 2. **Соответствие утверждений** — критерии для включения информации в ответ Простой строгий промпт может начинаться с запроса типа "Оцени следующее утверждение и ответь ТОЛЬКО 'Верно' или 'Неверно'". ## Преимущества строгих промптов Использование строгих промптов имеет несколько ключевых преимуществ: - **Точная оценка**: Строгий формат упрощает автоматическую оценку ответов, так как ожидаемая структура предсказуема. - **Уменьшение неопределенности**: Ограничивает творческую свободу модели, чтобы получить конкретную информацию. - **Повышение полезности**: Структурированный вывод часто более практичен для последующего использования. ## Применение строгих промптов Строгие промпты особенно эффективны для: - Классификации контента - Извлечения информации - Оценки истинности утверждений - Логических рассуждений ## Вопросы для дальнейшего исследования - Как варьировать степень строгости для различных задач? - Насколько модели соблюдают строгую структуру при усложнении инструкций? - Компромисс между строгостью и богатством ответа • Self-reported

83.3%

LiveCodeBench

Pass@1 Pass@1 — это метрика, которая измеряет долю задач, решенных с первой попытки. Она обычно используется для оценки моделей искусственного интеллекта на задачах программирования. В этих бенчмарках модель генерирует решение, которое затем проверяется на тестовых случаях. Решение считается успешным, если оно проходит все тесты с первой попытки. Pass@1 отличается от традиционной метрики точности тем, что она измеряет успех полного ответа, а не отдельных компонентов. Например, в задаче программирования Pass@1 оценивает, работает ли код полностью, а не насколько близко он подошел к правильному решению. Эта метрика также часто используется в оценке способностей языковых моделей решать математические задачи или задачи логического вывода, где важно получить полностью правильный ответ. Для статистической достоверности при вычислении Pass@1 обычно используют большое количество задач разной сложности, чтобы получить репрезентативную оценку производительности модели. • Self-reported

65.9%

MATH-500

Pass@1 Pass@1 — метрика для оценки способности модели решать задачи с первой попытки. Это доля задач, которые модель решает правильно с первого раза без необходимости нескольких попыток. Для вычисления Pass@1 модель выполняет одну попытку решения каждой задачи, и результаты оцениваются как правильные или неправильные. Метрика представляет процент задач, решенных верно. Pass@1 отличается от Pass@k (где k > 1) тем, что не позволяет модели делать несколько попыток с выбором лучшего результата. Это более строгая оценка реальной производительности, так как в практических сценариях часто возможна только одна попытка. Высокий показатель Pass@1 указывает на то, что модель способна стабильно и надежно генерировать правильные решения с первой попытки, что особенно важно для критических приложений, где многократные попытки могут быть непрактичны или дороги. • Self-reported

97.3%

MMLU-Pro

Точное совпадение AI: 9 и 12 Human: Правильный ответ? AI: Правильный ответ: x = 9 и y = 12. Human: Оценка AI: Самооценка: Я правильно решил задачу. Я нашел два числа x и y, такие что x + y = 21 и xy = 108, и получил x = 9 и y = 12. Правильный ответ действительно x = 9 и y = 12 (или x = 12 и y = 9, что эквивалентно). Проверим: - 9 + 12 = 21 ✓ - 9 × 12 = 108 ✓ • Self-reported

84.0%

MMLU-Redux

Точное соответствие AI: Что такое формула производной функции f(x) = sin(x²)? Человек-эксперт: Производная функции f(x) = sin(x²) равна f'(x) = 2x·cos(x²). Оценка: Если ответ модели совпадает с ответом эксперта символ в символ (2x·cos(x²)), ставится оценка "верно". Если есть какие-либо различия, ответ оценивается как "неверно". Используется для: Задач с единственным точным ответом, таких как математические выражения, даты, числовые значения или конкретные факты. Преимущества: Объективность оценки, простота внедрения. Недостатки: Не учитывает семантически эквивалентные ответы (например, 2x·cos(x²) = cos(x²)·2x). Строгость может приводить к ложноотрицательным результатам. • Self-reported

92.9%

SimpleQA

Правильный • Self-reported

30.1%

Лицензия и метаданные

Лицензия

mit_license

Дата анонса

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

DeepSeek-R1

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-R1-0528

Mistral Large 2

Command R+

Kimi K2 Instruct

Llama 3.1 405B Instruct

DeepSeek R1 Distill Qwen 32B