DeepSeek logo

DeepSeek R1 Distill Llama 70B

DeepSeek

DeepSeek-R1 — это первое поколение модели для рассуждений, построенной на основе DeepSeek-V3 (671 миллиард общих параметров, 37 миллиардов активируемых на токен). Она использует крупномасштабное обучение с подкреплением (RL) для улучшения способностей к цепочке рассуждений и логическому мышлению, обеспечивая высокую производительность в математических задачах, программировании и многошаговых рассуждениях.

Основные характеристики

Параметры
70.6B
Контекст
128.0K
Дата выпуска
20 января 2025 г.
Средний балл
76.0%

Временная шкала

Ключевые даты в истории модели
Анонс
20 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
70.6B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.10
Выход (за 1М токенов)
$0.40
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond, Pass@1 Метод, предложенный Google Research в статье "Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models" (май 2024), использует самоигру (self-play) для повышения способностей моделей решать задачи. Метод работает следующим образом: 1. Задачи решаются одной и той же базовой моделью многократно (например, 32 раза) 2. Из 32 попыток выбираются правильные ответы 3. Модель обучается имитировать свои собственные правильные попытки После такой процедуры новая модель может решать задачи с первой попытки с той же точностью, с которой исходная модель решала задачи из 32 попыток. Diamond относится к Pass@1, то есть метрике, показывающей, сколько задач модель может решить с первой попытки. Улучшение Pass@1 особенно важно для практического использования, поскольку в реальном мире у нас обычно нет роскоши многократного решения задачи и выбора лучшего ответа. В отличие от других методов, Diamond не требует дополнительных внешних данных для обучения, используя только свои собственные успешные попытки.Self-reported
65.2%

Другие тесты

Специализированные бенчмарки
AIME 2024
Cons@64 Cons@64 — это метод оценки для бенчмарков математики и рассуждений, который запускает модель на 64 различных генерациях пути решения и использует «голосование за консенсус» для выбора окончательного ответа. Метод включает в себя: 1) Генерацию 64 независимых решений. 2) Подсчет частоты каждого ответа. 3) Выбор наиболее распространенного ответа как окончательного решения. Это мощный метод, потому что он преодолевает нестабильность в выводе больших языковых моделей, позволяя им достигать гораздо лучших результатов, чем при одиночных прогонах. Cons@64 эффективен потому, что для большинства задач LLM обычно генерирует правильный ответ чаще, чем любой конкретный неправильный ответ. Например, если модель дает правильный ответ в 30% случаев, а множество неправильных ответов, каждый с вероятностью ниже 30%, то при голосовании по 64 генерациям правильный ответ, скорее всего, получит большинство. Cons@64 использовался для значительного улучшения производительности моделей на математических бенчмарках, включая MATH, GSM8K, AIME и другие тесты рассуждений.Self-reported
86.7%
LiveCodeBench
Pass@1 — это метрика оценки успешности модели генерации кода, показывающая вероятность того, что одна попытка решения будет успешной. Это фундаментальный показатель для бенчмарков программирования, таких как HumanEval. В отличие от метрики Pass@k, которая оценивает вероятность нахождения правильного решения среди k различных сгенерированных ответов, Pass@1 рассматривает только одну попытку. Pass@1 напрямую отражает способность модели генерировать корректный код с первого раза, без использования методов выборки. Высокий показатель Pass@1 особенно важен в практических сценариях, где пользователям необходимо получить работающее решение без просмотра множества альтернатив. Это также ключевой показатель для оценки надежности модели в реальных задачах программирования. При измерении Pass@1 каждая задача рассматривается как бинарный результат: решение либо проходит все тесты, либо нет. Общий показатель рассчитывается как доля успешно решенных задач от их общего количества.Self-reported
57.5%
MATH-500
Pass@1 Метрика Pass@1 измеряет вероятность получения правильного ответа на определенную задачу с первой попытки. Она показывает, насколько точной является модель, когда у нее есть только один шанс решить проблему. При расчете Pass@1 модель генерирует единственное решение для задачи, и это решение либо правильное (1), либо неправильное (0). Конечная оценка Pass@1 представляет собой долю правильных ответов из всех тестовых задач. В контексте оценки математических способностей моделей Pass@1 является важным показателем надежности. Высокая оценка Pass@1 означает, что модель последовательно дает правильные ответы без необходимости нескольких попыток или отбора из нескольких кандидатов решений.Self-reported
94.5%

Лицензия и метаданные

Лицензия
mit
Дата анонса
20 января 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.