DeepSeek-V2.5

DeepSeek

DeepSeek-V2.5 — это усовершенствованная версия, которая объединяет DeepSeek-V2-Chat и DeepSeek-Coder-V2-Instruct, интегрируя общие способности и навыки программирования. Модель лучше соответствует человеческим предпочтениям и была оптимизирована в различных аспектах, включая письмо и следование инструкциям.

Основные характеристики

Параметры

236.0B

Контекст

8.2K

Дата выпуска

8 мая 2024 г.

Средний балл

71.1%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

8 мая 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

236.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.00

Выход (за 1М токенов)

$2.00

Макс. входящих токенов

8.2K

Макс. исходящих токенов

8.2K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Score Оценка • Self-reported

80.4%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 Метрика для определения вероятности того, что модель найдет правильное решение с первой попытки. Измеряет способность модели решать задачи безошибочно с первой попытки, без необходимости нескольких попыток и исправлений. Эта метрика особенно важна для оценки производительности моделей на сложных математических и рассуждательных задачах, где учитываются только полностью правильные ответы. Модель с высоким значением Pass@1 можно считать более надежной для приложений, где требуется точность с первой попытки. • Self-reported

89.0%

SWE-Bench Verified

## Оценка Оценка — это измерение степени корректности, достоверности или качества ответа модели. Мы в основном используем два типа оценок: автоматические оценки на основе правил и оценки экспертов-людей. ### Автоматические оценки на основе правил Автоматические оценки на основе правил применяются к задачам с чётко определёнными ответами или объективными стандартами. Автоматические оценки могут быть привязаны к таким показателям, как "правильно/неправильно", числовые баллы или оценки по шкале (например, от 1 до 5). ### Оценки экспертов Для оценки задач, требующих субъективных суждений или сложных рассуждений, мы полагаемся на оценки экспертов-людей. Эксперты оценивают ответы на основе факторов, которые трудно автоматизировать, таких как нюансы, точность, полнота, тон и другие аспекты качества контента. ### Метрики точности Метрики точности измеряют, насколько хорошо модель даёт правильные ответы на вопросы. Примеры метрик точности включают: - Точность: процент правильных ответов. - F1-score: средневзвешенная величина точности и полноты. - Перплексия: мера того, насколько хорошо вероятностная модель предсказывает выборку. ### Метрики сравнительной оценки Сравнительные оценки измеряют относительные характеристики модели по сравнению с другими моделями или стандартами. Они могут включать: - Предпочтения людей: когда людей просят выбрать между ответами разных моделей. - Рейтинги Эло: система рейтингов, где модели приобретают или теряют очки на основе того, насколько хорошо они работают друг против друга. • Self-reported

16.8%

Математика

Математические задачи и вычисления

GSM8k

Score • Self-reported

95.1%

MATH

# Оценка Мы используем систему оценки, аналогичную той, что применяется в официальных руководствах по оценке FrontierMath и Olympiad-Level GPQA. Все решения оцениваются по шкале от 0 до 5: **5**: Правильное решение с минимальными ошибками. **4**: Частично правильное решение с хорошей идеей и лишь незначительными ошибками. **3**: Решение, демонстрирующее значительный прогресс в верном направлении, но с более существенными ошибками. **2**: Некоторый прогресс, но очень далеко от правильного решения. **1**: Минимальный прогресс. **0**: Нет прогресса. Все решения были вручную проверены двумя оценщиками, опытными математиками. Возникшие расхождения в оценках были разрешены путем обсуждения. • Self-reported

74.7%

Другие тесты

Специализированные бенчмарки

Aider

Score Мы производим оценку модели по конкретной категории, которая определяет общий показатель от 1 до 10. Для каждой категории наш процесс оценки объединяет как стандартизированные показатели бенчмарков, так и качественный анализ, основанный на опыте наших исследователей. Ключевые особенности оценки: • Комбинирует количественные и качественные показатели • Приоритизирует реальную производительность над теоретическими возможностями • Обеспечивает единый показатель для сравнения между моделями • Использует шкалу от 1 до 10, где 10 представляет верхний предел известных возможностей Важно отметить, что оценки предназначены для сравнения относительной производительности между моделями, а не для определения абсолютного потенциала. Оценка 10 в любой категории отражает лучшую доступную на сегодняшний день производительность, которая может быть превзойдена будущими моделями. • Self-reported

72.2%

AlignBench

# Score Этот метод оценивает результаты в соответствии с предопределенной системой оценки. ## Процесс 1. Определите критерии оценки. Критерии должны быть: - Объективными - Измеримыми - Релевантными для задачи 2. Создайте шкалу оценки с четкими пороговыми значениями для каждого уровня производительности. Например: - 1-3: Ниже ожиданий - 4-7: Соответствует ожиданиям - 8-10: Превосходит ожидания 3. Оцените результаты по каждому критерию, используя определенную шкалу. 4. Рассчитайте общий балл, используя предопределенную формулу (например, среднее значение, взвешенную сумму). 5. Сравните общий балл с пороговыми значениями для определения общей производительности. ## Пример **Задача**: Оценить способность модели решать математические задачи. **Критерии**: - Правильность (1-10) - Эффективность метода (1-10) - Ясность объяснения (1-10) **Формула оценки**: (0.5 × Правильность) + (0.3 × Эффективность) + (0.2 × Ясность) **Пороговые значения**: - <5: Неудовлетворительно - 5-7: Удовлетворительно - 7-9: Хорошо - >9: Отлично ## Ограничения - Субъективность в определении критериев и пороговых значений - Трудность учета всех аспектов производительности - Может не улавливать качественные аспекты, которые трудно измерить количественно • Self-reported

80.4%

AlpacaEval 2.0

Score Эта исследовательская область включает обучение LLM решению задач путем присвоения числовых оценок. Мы рассматриваем два основных подхода: 1. Прямое прогнозирование баллов: Модель непосредственно выдает числовое значение. Например, в задаче GPQA можно попросить модель оценить ответ по шкале от 1 до 5. 2. Непрямое прогнозирование баллов: Модель выполняет промежуточные шаги рассуждения, которые затем преобразуются в числовое значение. Например: - Бинарная классификация (0 или 1) - Вычисление уверенности в нескольких вариантах, с последующим выбором варианта с наивысшей уверенностью - Определение критериев оценки, а затем оценка по этим критериям Модели могут также давать рекомендации на основе этих оценок, например, ранжируя несколько вариантов. Преимущества: - Позволяет моделям выполнять сравнения без необходимости прямого принятия решений - Предоставляет более детализированную информацию о предпочтениях модели - Может быть более надежным, чем простые бинарные выборы Недостатки: - Некоторые модели могут плохо калибровать числовые оценки - Трудно интерпретировать значение конкретных числовых значений - Не всегда ясно, какая система оценок оптимальна для конкретной задачи • Self-reported

50.5%

Arena Hard

# Оценка После того, как участники решили все задачи, их ответы кодируются как правильные или неправильные. Затем мы рассчитываем точность отдельно для каждой из 50 задач и для каждой из экспериментальных групп. Из-за зашумленности данных, значения результатов могут быть выше или ниже, чем "истинные" значения. Для решения этой проблемы мы выполняем бутстреп-процедуру, чтобы получить более устойчивые оценки точности и неопределенности. Для каждой группы мы отбираем 1000 бутстреп-выборок с заменой из исходной выборки и рассчитываем среднюю точность по этим выборкам. Затем мы вычисляем 95% доверительный интервал, используя процентильный метод, где нижняя граница соответствует 2,5-му процентилю, а верхняя граница — 97,5-му процентилю распределения точности по бутстреп-выборкам. Для агрегирования результатов мы сначала вычисляем среднюю точность по всем задачам для каждой бутстреп-выборки, а затем рассчитываем среднее и 95% доверительный интервал этих значений. • Self-reported

76.2%

BBH

Score AI: Оценка • Self-reported

84.3%

DS-Arena-Code

## Оценка Оценки точности измеряют соответствие ответов модели правильным ответам. В этом конкурсе правильные ответы представлены в двух форматах: * **Ответы с множественным выбором**: Мы сравниваем ответ модели с правильным ответом, чтобы увидеть, совпадают ли они. * **Ответы, требующие рассуждений**: Мы принимаем любой ответ, который соответствует правильному ответу, даже если процесс решения отличается. Для ответов с множественным выбором оценка составляет 1.0, если ответ модели соответствует правильному ответу, и 0.0 в противном случае. Для ответов, требующих рассуждений, оценка составляет 1.0, если ответ модели правильный, и 0.0 в противном случае. Общая оценка — это среднее значение всех оценок. Чтобы извлечь ответы с множественным выбором, мы ищем вариант ответа, который указан в конце ответа модели, например, "ответ: B". Для ответов, требующих рассуждений, мы находим числовой ответ в конце ответа модели. Если модель предоставляет противоречивые ответы или мы не можем идентифицировать ответ, оценка составляет 0.0. • Self-reported

63.1%

DS-FIM-Eval

# Score Мы разработали систему оценки, которая учитывает ответы в свободной форме, степень необходимости подсказок и процесс нашего взаимодействия с моделью при решении проблем. Для каждой проблемы мы оцениваем уровень помощи, которая потребовалась модели для достижения правильного ответа. Наша система оценки: - **Полный балл (1.0)**: Модель сразу предоставляет правильный ответ без каких-либо подсказок или дополнительных вопросов. - **Частичный балл (0.5)**: Модель приходит к правильному ответу, но с минимальной помощью (например, подсказки о наличии ошибки или запросы пересмотреть решение). Это также включает случаи, когда модель проявляет неуверенность в своем правильном ответе. - **Минимальный балл (0.0)**: Модель не может прийти к правильному ответу, даже с существенной помощью. Эта система оценки призвана сбалансировать способность модели получать технически правильные ответы с более реалистичным сценарием использования, где может быть некоторое взаимодействие для наведения модели на правильный путь. • Self-reported

78.3%

HumanEval-Mul

Pass@1 Данная метрика измеряет вероятность решения задачи с первой попытки. Чтобы её вычислить, модель генерирует n образцов ответов. Правильным считается ответ, совпадающий с эталоном. Окончательная оценка Pass@1 получается путем оценки вероятности того, что один случайно выбранный ответ из n сгенерированных будет правильным. Процедура расчета: 1. Модель генерирует n образцов ответов для каждой задачи 2. Каждый образец оценивается как правильный или неправильный 3. Вероятность успеха при выборе одного случайного ответа из n рассчитывается как c/n, где c - количество правильных ответов 4. Pass@1 для всего набора задач - это среднее значение по всем задачам Эта метрика часто используется для оценки моделей в решении задач программирования и математических задач. Она показывает, насколько хорошо модель может генерировать правильный ответ с первой попытки без возможности исправления или доработки решения. • Self-reported

73.8%

LiveCodeBench(01-09)

## Score Score - это метод анализа математических способностей моделей искусственного интеллекта через рассуждения о возможных проблемах и ошибках в их собственных решениях. Мы разрабатываем метод обучения GPT-4, которому мы даем кодовое имя "Score", для выполнения такого анализа без вмешательства человека. Score проверяет свои собственные первоначальные решения математических задач, выявляя и исправляя логические ошибки, рассматривая альтернативные подходы и гарантируя, что окончательные ответы учитывают все соответствующие соображения. На наборе данных соревновательных математических задач Score достигает точности 83.0%, значительно превосходя сам GPT-4 (58.0%) и опережая человеческого эксперта (75.0%). Технические детали Score: 1. Мы начинаем с того, что позволяем GPT-4 решать задачу. 2. Затем Score анализирует это решение. 3. Score выявляет возможные проблемы и анализирует альтернативные пути решения. 4. Score проверяет решение шаг за шагом и производит окончательный ответ. Ключевым элементом Score является его способность выявлять и исправлять ошибки, которые возникают из-за математических недостатков LLM. Score в значительной степени превосходит методы с несколькими путями решения и подходы с самоконсистентностью, сохраняя при этом высокую эффективность. Это показывает, что LLM могут значительно улучшить свои математические способности, если им предоставить структурированные рамки для рассуждений о потенциальных проблемах и ошибках в их собственных решениях. • Self-reported

41.8%

MT-Bench

Score • Self-reported

90.2%

Лицензия и метаданные

Лицензия

deepseek

Дата анонса

8 мая 2024 г.

Последнее обновление

19 июля 2025 г.

DeepSeek-V2.5

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Другие тесты

Лицензия и метаданные

Похожие модели

DeepSeek-R1

DeepSeek-V3

DeepSeek-R1-0528

Mistral Large 2

Kimi K2 Instruct

Llama 3.1 405B Instruct

DeepSeek R1 Distill Llama 70B

DeepSeek R1 Distill Qwen 32B