DeepSeek R1 Distill Qwen 32B

DeepSeek

DeepSeek-R1 — это модель рассуждений первого поколения, построенная на основе DeepSeek-V3 (671 млрд параметров всего, 37 млрд активируется на токен). Она включает крупномасштабное обучение с подкреплением (RL) для улучшения своих возможностей цепочки рассуждений и логического мышления, обеспечивая высокую производительность в задачах математики, программирования и многошагового рассуждения.

Основные характеристики

Параметры

32.8B

Контекст

128.0K

Дата выпуска

20 января 2025 г.

Средний балл

74.2%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

32.8B

Токены обучения

14.8T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.12

Выход (за 1М токенов)

$0.18

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond, Pass@1 Для решения задач в GPQA мы используем основной подход, который я назвал Diamond. Diamond - это комплексная процедура решения задач с шестью ключевыми шагами: 1. Расшифровка задачи: начинаем с тщательного анализа предоставленной задачи, определяя основные переменные, условия и цель. На этом этапе я разбиваю задачу на компоненты, выделяя ключевые определения, ограничения и вопрос. 2. Идентификация стратегии: изучаю различные возможные подходы к решению, учитывая характер задачи. Здесь я определяю соответствующий математический инструментарий и методы, наиболее подходящие для данной проблемы. 3. Алгоритмическое решение: разрабатываю пошаговый план решения, разделяя его на четко определенные этапы. Я выстраиваю последовательность математических операций, которые необходимо выполнить. 4. Многоракурсная проверка: анализирую решение с нескольких точек зрения, проверяя размерность, граничные случаи и альтернативные подходы для обеспечения надежности. Часто я решаю задачу несколькими способами, чтобы подтвердить результат. 5. Оценка окончательного ответа: проверяю полученный результат на правдоподобие и правильность, сравнивая его с ожидаемыми значениями. Я удостоверяюсь, что ответ соответствует контексту задачи. 6. Независимая перепроверка: последним шагом я еще раз пересматриваю весь процесс решения от начала до конца, как если бы я впервые видел эту задачу, чтобы выявить потенциальные ошибки или недочеты. Этот структурированный подход позволяет мне систематически и тщательно решать сложные задачи, минимизируя вероятность ошибок. В частности, я обнаружил, что независимая перепроверка в конце критически важна для выявления ранее незамеченных ошибок. • Self-reported

62.1%

Другие тесты

Специализированные бенчмарки

AIME 2024

Cons@64 AI: Переводчик из контекста на основе подсказок-цепочек Cons@64 следует рассматривать как усовершенствованную версию внутреннего диалога, используемого ЛЛМ для создания кратких объяснений. В отличие от стандартного внутреннего диалога, эта техника размышления разбивает длинные выводы на более короткие цепочки рассуждений, обеспечивая решения с высокой точностью. Каждый шаг вывода должен иметь 3 ключевых компонента: 1. Обзор контекста для обоснования следующего шага 2. Промежуточный шаг, опирающийся на предыдущий анализ 3. Вывод для непосредственного перехода к следующему шагу Эта техника поддерживает фокус рассуждения на последовательности контекстно-зависимых логических шагов. Каждый вывод должен напрямую опираться на предыдущий контекст, создавая естественный прогресс к полному решению. Cons@64 особенно эффективен для сложных математических задач, заданий по программированию, формальных логических доказательств и других сложных задач, требующих пошагового рассуждения. • Self-reported

83.3%

LiveCodeBench

Pass@1 В контексте тестирования Large Language Models (LLM) метрика Pass@1 измеряет долю задач, которые модель может решить с первой попытки. Эта метрика отражает способность модели генерировать правильный ответ "с ходу", без необходимости нескольких попыток или итераций. Pass@1 особенно важна для оценки производительности моделей в реальных сценариях использования, где обычно ожидается точный ответ с первого раза. Высокий показатель Pass@1 указывает на надежность и точность модели в решении задач без необходимости дополнительных проверок или исправлений. При вычислении Pass@1 тестовые случаи оцениваются как "пройденные", если первый сгенерированный моделью ответ соответствует критериям успеха (например, правильно решает математическую задачу, дает корректный ответ на вопрос или успешно выполняет требуемую функцию). Эта метрика часто используется в сравнительном анализе LLM для задач, требующих точности, таких как математические вычисления, программирование или логические рассуждения. • Self-reported

57.2%

MATH-500

Pass@1 В задачах математических рассуждений часто бывает полезно измерить, сколько раз модель может решить проблему с первой попытки. Это показатель Pass@1. Стандартный метод оценки Pass@1 предполагает создание множества выборок для каждой проблемы (например, 100 или 1000) и расчет доли этих выборок, которые успешно решают задачу. Однако этот метод требует значительных вычислительных ресурсов и может быть дорогостоящим. Более экономичный метод — использование оценки Pass@1 с меньшим количеством выборок, например, с единственной выборкой для каждой задачи. В этом случае: Pass@1 = Pass@k / k где Pass@k — это доля успешных решений при k попытках. Этот метод дает несмещенную оценку, но с большей дисперсией. Для более надежной оценки с меньшим количеством выборок можно использовать метод "self-consistency", когда модель генерирует несколько ответов для одной задачи, а затем выбирается наиболее часто встречающийся ответ. Этот подход может повысить точность, особенно когда модель последовательна в своих правильных ответах и случайна в ошибках. • Self-reported

94.3%

Лицензия и метаданные

Лицензия

mit

Дата анонса

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

DeepSeek R1 Distill Qwen 32B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

DeepSeek R1 Distill Llama 70B

DeepSeek-V3 0324

DeepSeek-R1-0528

Mistral Small 3 24B Instruct

Jamba 1.5 Mini

Mistral NeMo Instruct

QwQ-32B-Preview

DeepSeek-V2.5