DeepSeek-V2.5
DeepSeek-V2.5 — это усовершенствованная версия, которая объединяет DeepSeek-V2-Chat и DeepSeek-Coder-V2-Instruct, интегрируя общие способности и навыки программирования. Модель лучше соответствует человеческим предпочтениям и была оптимизирована в различных аспектах, включая письмо и следование инструкциям.
Основные характеристики
Параметры
236.0B
Контекст
8.2K
Дата выпуска
8 мая 2024 г.
Средний балл
71.1%
Временная шкала
Ключевые даты в истории модели
Анонс
8 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
236.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$2.00
Выход (за 1М токенов)
$2.00
Макс. входящих токенов
8.2K
Макс. исходящих токенов
8.2K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Score
Оценка • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Pass@1
Метрика для определения вероятности того, что модель найдет правильное решение с первой попытки. Измеряет способность модели решать задачи безошибочно с первой попытки, без необходимости нескольких попыток и исправлений.
Эта метрика особенно важна для оценки производительности моделей на сложных математических и рассуждательных задачах, где учитываются только полностью правильные ответы. Модель с высоким значением Pass@1 можно считать более надежной для приложений, где требуется точность с первой попытки. • Self-reported
SWE-Bench Verified
## Оценка
Оценка — это измерение степени корректности, достоверности или качества ответа модели. Мы в основном используем два типа оценок: автоматические оценки на основе правил и оценки экспертов-людей.
### Автоматические оценки на основе правил
Автоматические оценки на основе правил применяются к задачам с чётко определёнными ответами или объективными стандартами. Автоматические оценки могут быть привязаны к таким показателям, как "правильно/неправильно", числовые баллы или оценки по шкале (например, от 1 до 5).
### Оценки экспертов
Для оценки задач, требующих субъективных суждений или сложных рассуждений, мы полагаемся на оценки экспертов-людей. Эксперты оценивают ответы на основе факторов, которые трудно автоматизировать, таких как нюансы, точность, полнота, тон и другие аспекты качества контента.
### Метрики точности
Метрики точности измеряют, насколько хорошо модель даёт правильные ответы на вопросы. Примеры метрик точности включают:
- Точность: процент правильных ответов.
- F1-score: средневзвешенная величина точности и полноты.
- Перплексия: мера того, насколько хорошо вероятностная модель предсказывает выборку.
### Метрики сравнительной оценки
Сравнительные оценки измеряют относительные характеристики модели по сравнению с другими моделями или стандартами. Они могут включать:
- Предпочтения людей: когда людей просят выбрать между ответами разных моделей.
- Рейтинги Эло: система рейтингов, где модели приобретают или теряют очки на основе того, насколько хорошо они работают друг против друга. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
Score • Self-reported
MATH
# Оценка
Мы используем систему оценки, аналогичную той, что применяется в официальных руководствах по оценке FrontierMath и Olympiad-Level GPQA. Все решения оцениваются по шкале от 0 до 5:
**5**: Правильное решение с минимальными ошибками.
**4**: Частично правильное решение с хорошей идеей и лишь незначительными ошибками.
**3**: Решение, демонстрирующее значительный прогресс в верном направлении, но с более существенными ошибками.
**2**: Некоторый прогресс, но очень далеко от правильного решения.
**1**: Минимальный прогресс.
**0**: Нет прогресса.
Все решения были вручную проверены двумя оценщиками, опытными математиками. Возникшие расхождения в оценках были разрешены путем обсуждения. • Self-reported
Другие тесты
Специализированные бенчмарки
Aider
Score
Мы производим оценку модели по конкретной категории, которая определяет общий показатель от 1 до 10. Для каждой категории наш процесс оценки объединяет как стандартизированные показатели бенчмарков, так и качественный анализ, основанный на опыте наших исследователей.
Ключевые особенности оценки:
• Комбинирует количественные и качественные показатели
• Приоритизирует реальную производительность над теоретическими возможностями
• Обеспечивает единый показатель для сравнения между моделями
• Использует шкалу от 1 до 10, где 10 представляет верхний предел известных возможностей
Важно отметить, что оценки предназначены для сравнения относительной производительности между моделями, а не для определения абсолютного потенциала. Оценка 10 в любой категории отражает лучшую доступную на сегодняшний день производительность, которая может быть превзойдена будущими моделями. • Self-reported
AlignBench
# Score
Этот метод оценивает результаты в соответствии с предопределенной системой оценки.
## Процесс
1. Определите критерии оценки. Критерии должны быть:
- Объективными
- Измеримыми
- Релевантными для задачи
2. Создайте шкалу оценки с четкими пороговыми значениями для каждого уровня производительности. Например:
- 1-3: Ниже ожиданий
- 4-7: Соответствует ожиданиям
- 8-10: Превосходит ожидания
3. Оцените результаты по каждому критерию, используя определенную шкалу.
4. Рассчитайте общий балл, используя предопределенную формулу (например, среднее значение, взвешенную сумму).
5. Сравните общий балл с пороговыми значениями для определения общей производительности.
## Пример
**Задача**: Оценить способность модели решать математические задачи.
**Критерии**:
- Правильность (1-10)
- Эффективность метода (1-10)
- Ясность объяснения (1-10)
**Формула оценки**: (0.5 × Правильность) + (0.3 × Эффективность) + (0.2 × Ясность)
**Пороговые значения**:
- <5: Неудовлетворительно
- 5-7: Удовлетворительно
- 7-9: Хорошо
- >9: Отлично
## Ограничения
- Субъективность в определении критериев и пороговых значений
- Трудность учета всех аспектов производительности
- Может не улавливать качественные аспекты, которые трудно измерить количественно • Self-reported
AlpacaEval 2.0
Score
Эта исследовательская область включает обучение LLM решению задач путем присвоения числовых оценок. Мы рассматриваем два основных подхода:
1. Прямое прогнозирование баллов: Модель непосредственно выдает числовое значение. Например, в задаче GPQA можно попросить модель оценить ответ по шкале от 1 до 5.
2. Непрямое прогнозирование баллов: Модель выполняет промежуточные шаги рассуждения, которые затем преобразуются в числовое значение. Например:
- Бинарная классификация (0 или 1)
- Вычисление уверенности в нескольких вариантах, с последующим выбором варианта с наивысшей уверенностью
- Определение критериев оценки, а затем оценка по этим критериям
Модели могут также давать рекомендации на основе этих оценок, например, ранжируя несколько вариантов.
Преимущества:
- Позволяет моделям выполнять сравнения без необходимости прямого принятия решений
- Предоставляет более детализированную информацию о предпочтениях модели
- Может быть более надежным, чем простые бинарные выборы
Недостатки:
- Некоторые модели могут плохо калибровать числовые оценки
- Трудно интерпретировать значение конкретных числовых значений
- Не всегда ясно, какая система оценок оптимальна для конкретной задачи • Self-reported
Arena Hard
# Оценка
После того, как участники решили все задачи, их ответы кодируются как правильные или неправильные. Затем мы рассчитываем точность отдельно для каждой из 50 задач и для каждой из экспериментальных групп.
Из-за зашумленности данных, значения результатов могут быть выше или ниже, чем "истинные" значения. Для решения этой проблемы мы выполняем бутстреп-процедуру, чтобы получить более устойчивые оценки точности и неопределенности. Для каждой группы мы отбираем 1000 бутстреп-выборок с заменой из исходной выборки и рассчитываем среднюю точность по этим выборкам. Затем мы вычисляем 95% доверительный интервал, используя процентильный метод, где нижняя граница соответствует 2,5-му процентилю, а верхняя граница — 97,5-му процентилю распределения точности по бутстреп-выборкам.
Для агрегирования результатов мы сначала вычисляем среднюю точность по всем задачам для каждой бутстреп-выборки, а затем рассчитываем среднее и 95% доверительный интервал этих значений. • Self-reported
BBH
Score
AI: Оценка • Self-reported
DS-Arena-Code
## Оценка
Оценки точности измеряют соответствие ответов модели правильным ответам. В этом конкурсе правильные ответы представлены в двух форматах:
* **Ответы с множественным выбором**: Мы сравниваем ответ модели с правильным ответом, чтобы увидеть, совпадают ли они.
* **Ответы, требующие рассуждений**: Мы принимаем любой ответ, который соответствует правильному ответу, даже если процесс решения отличается.
Для ответов с множественным выбором оценка составляет 1.0, если ответ модели соответствует правильному ответу, и 0.0 в противном случае. Для ответов, требующих рассуждений, оценка составляет 1.0, если ответ модели правильный, и 0.0 в противном случае. Общая оценка — это среднее значение всех оценок.
Чтобы извлечь ответы с множественным выбором, мы ищем вариант ответа, который указан в конце ответа модели, например, "ответ: B". Для ответов, требующих рассуждений, мы находим числовой ответ в конце ответа модели.
Если модель предоставляет противоречивые ответы или мы не можем идентифицировать ответ, оценка составляет 0.0. • Self-reported
DS-FIM-Eval
# Score
Мы разработали систему оценки, которая учитывает ответы в свободной форме, степень необходимости подсказок и процесс нашего взаимодействия с моделью при решении проблем. Для каждой проблемы мы оцениваем уровень помощи, которая потребовалась модели для достижения правильного ответа.
Наша система оценки:
- **Полный балл (1.0)**: Модель сразу предоставляет правильный ответ без каких-либо подсказок или дополнительных вопросов.
- **Частичный балл (0.5)**: Модель приходит к правильному ответу, но с минимальной помощью (например, подсказки о наличии ошибки или запросы пересмотреть решение). Это также включает случаи, когда модель проявляет неуверенность в своем правильном ответе.
- **Минимальный балл (0.0)**: Модель не может прийти к правильному ответу, даже с существенной помощью.
Эта система оценки призвана сбалансировать способность модели получать технически правильные ответы с более реалистичным сценарием использования, где может быть некоторое взаимодействие для наведения модели на правильный путь. • Self-reported
HumanEval-Mul
Pass@1
Данная метрика измеряет вероятность решения задачи с первой попытки. Чтобы её вычислить, модель генерирует n образцов ответов. Правильным считается ответ, совпадающий с эталоном. Окончательная оценка Pass@1 получается путем оценки вероятности того, что один случайно выбранный ответ из n сгенерированных будет правильным.
Процедура расчета:
1. Модель генерирует n образцов ответов для каждой задачи
2. Каждый образец оценивается как правильный или неправильный
3. Вероятность успеха при выборе одного случайного ответа из n рассчитывается как c/n, где c - количество правильных ответов
4. Pass@1 для всего набора задач - это среднее значение по всем задачам
Эта метрика часто используется для оценки моделей в решении задач программирования и математических задач. Она показывает, насколько хорошо модель может генерировать правильный ответ с первой попытки без возможности исправления или доработки решения. • Self-reported
LiveCodeBench(01-09)
## Score
Score - это метод анализа математических способностей моделей искусственного интеллекта через рассуждения о возможных проблемах и ошибках в их собственных решениях. Мы разрабатываем метод обучения GPT-4, которому мы даем кодовое имя "Score", для выполнения такого анализа без вмешательства человека.
Score проверяет свои собственные первоначальные решения математических задач, выявляя и исправляя логические ошибки, рассматривая альтернативные подходы и гарантируя, что окончательные ответы учитывают все соответствующие соображения. На наборе данных соревновательных математических задач Score достигает точности 83.0%, значительно превосходя сам GPT-4 (58.0%) и опережая человеческого эксперта (75.0%).
Технические детали Score:
1. Мы начинаем с того, что позволяем GPT-4 решать задачу.
2. Затем Score анализирует это решение.
3. Score выявляет возможные проблемы и анализирует альтернативные пути решения.
4. Score проверяет решение шаг за шагом и производит окончательный ответ.
Ключевым элементом Score является его способность выявлять и исправлять ошибки, которые возникают из-за математических недостатков LLM. Score в значительной степени превосходит методы с несколькими путями решения и подходы с самоконсистентностью, сохраняя при этом высокую эффективность. Это показывает, что LLM могут значительно улучшить свои математические способности, если им предоставить структурированные рамки для рассуждений о потенциальных проблемах и ошибках в их собственных решениях. • Self-reported
MT-Bench
Score • Self-reported
Лицензия и метаданные
Лицензия
deepseek
Дата анонса
8 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиDeepSeek-R1
DeepSeek
671.0B
Лучший скор:0.9 (MMLU)
Релиз:янв. 2025 г.
Цена:$7.00/1M токенов
DeepSeek-V3
DeepSeek
671.0B
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$0.27/1M токенов
DeepSeek-R1-0528
DeepSeek
671.0B
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$0.70/1M токенов
Mistral Large 2
Mistral AI
123.0B
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$2.00/1M токенов
Kimi K2 Instruct
Moonshot AI
1.0T
Лучший скор:0.9 (HumanEval)
Релиз:янв. 2025 г.
Цена:$0.57/1M токенов
Llama 3.1 405B Instruct
Meta
405.0B
Лучший скор:1.0 (ARC)
Релиз:июль 2024 г.
Цена:$3.50/1M токенов
DeepSeek R1 Distill Llama 70B
DeepSeek
70.6B
Лучший скор:0.7 (GPQA)
Релиз:янв. 2025 г.
Цена:$0.10/1M токенов
DeepSeek R1 Distill Qwen 32B
DeepSeek
32.8B
Лучший скор:0.6 (GPQA)
Релиз:янв. 2025 г.
Цена:$0.12/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.