DeepSeek R1 Distill Llama 70B

DeepSeek

DeepSeek-R1 — это первое поколение модели для рассуждений, построенной на основе DeepSeek-V3 (671 миллиард общих параметров, 37 миллиардов активируемых на токен). Она использует крупномасштабное обучение с подкреплением (RL) для улучшения способностей к цепочке рассуждений и логическому мышлению, обеспечивая высокую производительность в математических задачах, программировании и многошаговых рассуждениях.

Основные характеристики

Параметры

70.6B

Контекст

128.0K

Дата выпуска

20 января 2025 г.

Средний балл

76.0%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

70.6B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.40

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond, Pass@1 Метод, предложенный Google Research в статье "Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models" (май 2024), использует самоигру (self-play) для повышения способностей моделей решать задачи. Метод работает следующим образом: 1. Задачи решаются одной и той же базовой моделью многократно (например, 32 раза) 2. Из 32 попыток выбираются правильные ответы 3. Модель обучается имитировать свои собственные правильные попытки После такой процедуры новая модель может решать задачи с первой попытки с той же точностью, с которой исходная модель решала задачи из 32 попыток. Diamond относится к Pass@1, то есть метрике, показывающей, сколько задач модель может решить с первой попытки. Улучшение Pass@1 особенно важно для практического использования, поскольку в реальном мире у нас обычно нет роскоши многократного решения задачи и выбора лучшего ответа. В отличие от других методов, Diamond не требует дополнительных внешних данных для обучения, используя только свои собственные успешные попытки. • Self-reported

65.2%

Другие тесты

Специализированные бенчмарки

AIME 2024

Cons@64 Cons@64 — это метод оценки для бенчмарков математики и рассуждений, который запускает модель на 64 различных генерациях пути решения и использует «голосование за консенсус» для выбора окончательного ответа. Метод включает в себя: 1) Генерацию 64 независимых решений. 2) Подсчет частоты каждого ответа. 3) Выбор наиболее распространенного ответа как окончательного решения. Это мощный метод, потому что он преодолевает нестабильность в выводе больших языковых моделей, позволяя им достигать гораздо лучших результатов, чем при одиночных прогонах. Cons@64 эффективен потому, что для большинства задач LLM обычно генерирует правильный ответ чаще, чем любой конкретный неправильный ответ. Например, если модель дает правильный ответ в 30% случаев, а множество неправильных ответов, каждый с вероятностью ниже 30%, то при голосовании по 64 генерациям правильный ответ, скорее всего, получит большинство. Cons@64 использовался для значительного улучшения производительности моделей на математических бенчмарках, включая MATH, GSM8K, AIME и другие тесты рассуждений. • Self-reported

86.7%

LiveCodeBench

Pass@1 — это метрика оценки успешности модели генерации кода, показывающая вероятность того, что одна попытка решения будет успешной. Это фундаментальный показатель для бенчмарков программирования, таких как HumanEval. В отличие от метрики Pass@k, которая оценивает вероятность нахождения правильного решения среди k различных сгенерированных ответов, Pass@1 рассматривает только одну попытку. Pass@1 напрямую отражает способность модели генерировать корректный код с первого раза, без использования методов выборки. Высокий показатель Pass@1 особенно важен в практических сценариях, где пользователям необходимо получить работающее решение без просмотра множества альтернатив. Это также ключевой показатель для оценки надежности модели в реальных задачах программирования. При измерении Pass@1 каждая задача рассматривается как бинарный результат: решение либо проходит все тесты, либо нет. Общий показатель рассчитывается как доля успешно решенных задач от их общего количества. • Self-reported

57.5%

MATH-500

Pass@1 Метрика Pass@1 измеряет вероятность получения правильного ответа на определенную задачу с первой попытки. Она показывает, насколько точной является модель, когда у нее есть только один шанс решить проблему. При расчете Pass@1 модель генерирует единственное решение для задачи, и это решение либо правильное (1), либо неправильное (0). Конечная оценка Pass@1 представляет собой долю правильных ответов из всех тестовых задач. В контексте оценки математических способностей моделей Pass@1 является важным показателем надежности. Высокая оценка Pass@1 означает, что модель последовательно дает правильные ответы без необходимости нескольких попыток или отбора из нескольких кандидатов решений. • Self-reported

94.5%

Лицензия и метаданные

Лицензия

mit

Дата анонса

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

DeepSeek R1 Distill Llama 70B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

DeepSeek R1 Distill Qwen 32B

DeepSeek-V3 0324

DeepSeek-R1-0528

Mistral Small 3 24B Instruct

Mistral NeMo Instruct

Jamba 1.5 Mini

Qwen2.5 72B Instruct

Qwen3 30B A3B