DeepSeek R1 Distill Qwen 1.5B
DeepSeek-R1 — это модель рассуждений первого поколения, построенная на основе DeepSeek-V3 (671 миллиард параметров общего объема, 37 миллиардов активных параметров на токен). Модель использует крупномасштабное обучение с подкреплением (RL) для улучшения своих способностей к цепочке рассуждений и логическому мышлению, демонстрируя высокую производительность в задачах по математике, программированию и многоэтапным рассуждениям.
Основные характеристики
Параметры
1.8B
Контекст
-
Дата выпуска
20 января 2025 г.
Средний балл
46.8%
Временная шкала
Ключевые даты в истории модели
Анонс
20 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
1.8B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond, Pass@1
Метод Diamond — это решатель, использующий 2-этапный процесс решения. На первом этапе он делит проблему на логические шаги. На втором этапе он последовательно реализует эти шаги, уделяя особое внимание математической строгости.
Метод Diamond был разработан в рамках генеративной помощи в изучении и оптимизирован для дедуктивных рассуждений. Этот подход характеризуется тремя особенностями:
1. Разделение размышления и кодирования: Diamond сначала формулирует концептуальный план до написания кода или выполнения расчетов.
2. Систематическое решение задач: Используется структурированный подход к сложным проблемам, начиная с определения ключевых понятий и разбивки задачи на управляемые компоненты.
3. Акцент на строгости: В конструкции Diamond заложено стремление к максимально строгому решению, что делает его особенно подходящим для математических доказательств.
Diamond демонстрирует высокую точность на сложных математических задачах, что видно из его эффективности в Pass@1 — метрике, измеряющей вероятность правильного решения с первой попытки. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
Cons@64
AI: Переведи текст описания метода анализа модели ИИ: • Self-reported
LiveCodeBench
Pass@1
Метрика для оценки производительности языковых моделей при решении задач, требующих рассуждений. Представляет собой вероятность того, что модель получит правильный ответ с первой попытки. Pass@1 обычно оценивается путем генерации нескольких независимых решений для каждой задачи (например, 100 или 200 решений), а затем вычисления доли задач, для которых модель получила правильный ответ хотя бы один раз.
Поскольку большие языковые модели являются вероятностными системами, их ответы могут различаться при каждом вызове. Оценка Pass@1 позволяет измерить способность модели последовательно находить правильные решения без необходимости многократных попыток.
Эта метрика особенно полезна при оценке производительности на сложных задачах рассуждения, таких как математические головоломки, программирование или логические задачи, где одиночная ошибка может привести к неправильному результату. • Self-reported
MATH-500
Pass@1
Метрика Pass@1 измеряет вероятность получения правильного ответа с первой попытки. Это основной метод оценки в исследованиях по математическим рассуждениям. В случае с моделями, выдающими только один ответ, Pass@1 равен точности.
Для вычисления Pass@1:
1. Решаем задачу k раз (генерируя k различных решений)
2. Считаем Pass@1 как долю правильных ответов среди всех k попыток
Пример: если из 100 попыток получено 75 правильных ответов, то Pass@1 = 0.75.
Эта метрика особенно важна, когда мы хотим измерить, насколько модель может получить правильный ответ без дополнительных попыток — что отражает реальные сценарии использования, где пользователь обычно рассматривает только один ответ. • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
20 января 2025 г.
Последнее обновление
19 июля 2025 г.