DeepSeek R1 Distill Qwen 7B
DeepSeek-R1 — это модель рассуждений первого поколения, построенная на базе DeepSeek-V3 (671 миллиард параметров всего, 37 миллиардов активируется на токен). Она использует крупномасштабное обучение с подкреплением для улучшения своих способностей к пошаговому мышлению и рассуждениям, демонстрируя высокую производительность в задачах математики, программирования и многоэтапных рассуждений.
Основные характеристики
Параметры
7.6B
Контекст
-
Дата выпуска
20 января 2025 г.
Средний балл
65.7%
Временная шкала
Ключевые даты в истории модели
Анонс
20 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
7.6B
Токены обучения
14.8T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond, Pass@1
Методология оценки, фокусирующаяся на способности модели генерировать хотя бы один правильный ответ за несколько попыток. Для каждой задачи модель генерирует несколько независимых решений (обычно 5-200), а затем выбирается лучшее решение из всего набора. Pass@1 оценивает вероятность того, что модель даст правильный ответ с первой попытки.
Это метрика особенно полезна для задач, где существует объективно правильный ответ, например, для математических задач, программирования или факт-чекинга. Методика учитывает вариативность выходных данных крупных языковых моделей и измеряет их наилучшую возможную производительность при решении сложных задач. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
Cons@64
Cons@64 — это метод повышения точности вычислений в LLM, который заключается в обрезании промежуточных токенов вывода для получения более правильных ответов. В ситуациях, когда модель выполняет многошаговые вычисления, анализирует сложные логические задачи или проводит числовые вычисления, ответы часто бывают неточными из-за ошибок в цепочке рассуждений. Cons@64 решает эту проблему путем ограничения вывода модели до 64 токенов, фактически предотвращая длинные цепочки рассуждений, которые могут привести к ошибкам.
Когда модель ограничена небольшим количеством выходных токенов, она вынуждена давать короткие и прямые ответы, что может привести к более высокой точности. Это особенно эффективно для задач, требующих числовых вычислений или конкретных выводов. Возможное объяснение заключается в том, что большое количество выходных токенов увеличивает вероятность ошибок в промежуточных шагах, которые затем распространяются на финальный ответ.
Cons@64 не требует изменения самой модели или ее параметров — это просто стратегия обрезки вывода, которую можно применить к любой LLM. • Self-reported
LiveCodeBench
Pass@1
В исследованиях генеративных моделей Pass@1 — это метрика, используемая для оценки производительности языковых моделей в задачах, требующих точного вывода, особенно в программировании и математических задачах.
Определение: Pass@1 измеряет вероятность того, что модель решит задачу с первой попытки без необходимости генерировать несколько вариантов.
В отличие от метрик, основанных на сэмплировании (таких как Pass@k, где k > 1), Pass@1 оценивает способность модели генерировать одно корректное решение сразу, что важно для реальных сценариев использования, где пользователи ожидают правильного ответа с первого раза.
Применение:
- Оценка решения задач программирования, где одно неправильное решение может привести к ошибкам компиляции или некорректной работе
- Математические задачи, где модель должна не только найти ответ, но и предоставить корректное пошаговое решение
- Оценка надежности модели в критических приложениях, где повторные попытки нежелательны или невозможны
Расчет:
Pass@1 = (Количество задач, решенных с первой попытки) / (Общее количество задач)
Pass@1 особенно ценен как показатель надежности модели и ее способности к точным рассуждениям при отсутствии возможности перебирать множество альтернатив. • Self-reported
MATH-500
Pass@1
Метрика производительности, которая измеряет вероятность того, что модель правильно решит задачу с первой попытки. В контексте рассуждений с помощью сэмплирования (sampling-based reasoning) это означает вероятность получения правильного ответа из одного сэмпла вывода модели.
Pass@1 вычисляется путем многократного запуска модели с разными затравками (seeds) и расчета доли успешных решений. Эта метрика особенно важна в сценариях, где у пользователя есть только одна попытка получить ответ от модели, что отражает большинство реальных взаимодействий с LLM.
Высокий показатель Pass@1 указывает на то, что модель стабильно и надежно решает задачи без необходимости в многократных попытках. • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
20 января 2025 г.
Последнее обновление
19 июля 2025 г.