DeepSeek R1 Distill Qwen 7B

DeepSeek

DeepSeek-R1 — это модель рассуждений первого поколения, построенная на базе DeepSeek-V3 (671 миллиард параметров всего, 37 миллиардов активируется на токен). Она использует крупномасштабное обучение с подкреплением для улучшения своих способностей к пошаговому мышлению и рассуждениям, демонстрируя высокую производительность в задачах математики, программирования и многоэтапных рассуждений.

Основные характеристики

Параметры

7.6B

Контекст

Дата выпуска

20 января 2025 г.

Средний балл

65.7%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

7.6B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond, Pass@1 Методология оценки, фокусирующаяся на способности модели генерировать хотя бы один правильный ответ за несколько попыток. Для каждой задачи модель генерирует несколько независимых решений (обычно 5-200), а затем выбирается лучшее решение из всего набора. Pass@1 оценивает вероятность того, что модель даст правильный ответ с первой попытки. Это метрика особенно полезна для задач, где существует объективно правильный ответ, например, для математических задач, программирования или факт-чекинга. Методика учитывает вариативность выходных данных крупных языковых моделей и измеряет их наилучшую возможную производительность при решении сложных задач. • Self-reported

49.1%

Другие тесты

Специализированные бенчмарки

AIME 2024

Cons@64 Cons@64 — это метод повышения точности вычислений в LLM, который заключается в обрезании промежуточных токенов вывода для получения более правильных ответов. В ситуациях, когда модель выполняет многошаговые вычисления, анализирует сложные логические задачи или проводит числовые вычисления, ответы часто бывают неточными из-за ошибок в цепочке рассуждений. Cons@64 решает эту проблему путем ограничения вывода модели до 64 токенов, фактически предотвращая длинные цепочки рассуждений, которые могут привести к ошибкам. Когда модель ограничена небольшим количеством выходных токенов, она вынуждена давать короткие и прямые ответы, что может привести к более высокой точности. Это особенно эффективно для задач, требующих числовых вычислений или конкретных выводов. Возможное объяснение заключается в том, что большое количество выходных токенов увеличивает вероятность ошибок в промежуточных шагах, которые затем распространяются на финальный ответ. Cons@64 не требует изменения самой модели или ее параметров — это просто стратегия обрезки вывода, которую можно применить к любой LLM. • Self-reported

83.3%

LiveCodeBench

Pass@1 В исследованиях генеративных моделей Pass@1 — это метрика, используемая для оценки производительности языковых моделей в задачах, требующих точного вывода, особенно в программировании и математических задачах. Определение: Pass@1 измеряет вероятность того, что модель решит задачу с первой попытки без необходимости генерировать несколько вариантов. В отличие от метрик, основанных на сэмплировании (таких как Pass@k, где k > 1), Pass@1 оценивает способность модели генерировать одно корректное решение сразу, что важно для реальных сценариев использования, где пользователи ожидают правильного ответа с первого раза. Применение: - Оценка решения задач программирования, где одно неправильное решение может привести к ошибкам компиляции или некорректной работе - Математические задачи, где модель должна не только найти ответ, но и предоставить корректное пошаговое решение - Оценка надежности модели в критических приложениях, где повторные попытки нежелательны или невозможны Расчет: Pass@1 = (Количество задач, решенных с первой попытки) / (Общее количество задач) Pass@1 особенно ценен как показатель надежности модели и ее способности к точным рассуждениям при отсутствии возможности перебирать множество альтернатив. • Self-reported

37.6%

MATH-500

Pass@1 Метрика производительности, которая измеряет вероятность того, что модель правильно решит задачу с первой попытки. В контексте рассуждений с помощью сэмплирования (sampling-based reasoning) это означает вероятность получения правильного ответа из одного сэмпла вывода модели. Pass@1 вычисляется путем многократного запуска модели с разными затравками (seeds) и расчета доли успешных решений. Эта метрика особенно важна в сценариях, где у пользователя есть только одна попытка получить ответ от модели, что отражает большинство реальных взаимодействий с LLM. Высокий показатель Pass@1 указывает на то, что модель стабильно и надежно решает задачи без необходимости в многократных попытках. • Self-reported

92.8%

Лицензия и метаданные

Лицензия

mit

Дата анонса

20 января 2025 г.

Последнее обновление

19 июля 2025 г.