Alibaba logo

Qwen2.5-Coder 7B Instruct

Alibaba

Qwen2.5-Coder — это специализированная модель для программирования, обученная на 5,5 триллионах токенов данных кода, поддерживающая 92 языка программирования с контекстным окном в 128K. Она превосходно справляется с генерацией, дополнением и исправлением кода, сохраняя при этом высокую производительность в математических и общих задачах. Модель демонстрирует исключительные возможности в задачах с несколькими языками программирования и в рассуждениях о коде.

Основные характеристики

Параметры
7.0B
Контекст
-
Дата выпуска
19 сентября 2024 г.
Средний балл
58.0%

Временная шкала

Ключевые даты в истории модели
Анонс
19 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
7.0B
Токены обучения
5.5T токенов
Граница знаний
-
Семейство
-
Файн-тюнинг от
qwen-2.5-7b-instruct
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
точностьSelf-reported
76.8%
MMLU
точностьSelf-reported
67.6%
TruthfulQA
точностьSelf-reported
50.6%
Winogrande
точностьSelf-reported
72.9%

Программирование

Тесты на навыки программирования
HumanEval
pass@1 Этот метод оценивает эффективность модели, выполняя промпт всего один раз и проверяя правильность ответа. pass@1 даёт бинарную оценку: 1, если ответ правильный, и 0, если нет. Это простейший способ оценки, не требующий многократного выполнения для каждого примера.Self-reported
88.4%
MBPP
pass@1 Проход с первой попытки (pass@1) означает, что модель должна решить задачу правильно с первой попытки, когда она встречает задачу впервые. В отличие от других настроек, таких как pass@k, при pass@1 модель не имеет возможности генерировать несколько попыток решения с последующим выбором лучшего ответа. Это строгая метрика, так как она измеряет способность модели найти правильное решение с первого раза. При оценке pass@1 выводы модели обычно проверяются на соответствие ожидаемому ответу с использованием регулярных выражений или специализированных проверок. Высокий показатель pass@1 указывает на то, что модель обладает надежным пониманием предметной области и может формулировать точные решения без необходимости в дополнительных попытках или корректировках.Self-reported
83.5%

Математика

Математические задачи и вычисления
GSM8k
точностьSelf-reported
83.9%
MATH
точностьSelf-reported
46.6%

Другие тесты

Специализированные бенчмарки
Aider
pass@1 Мы определяем "pass@1" как вероятность того, что модель получит правильный ответ с первой попытки. Некоторые модели могут использовать несколько попыток для решения одной и той же задачи (например, с помощью техник выборки и рейтинга, таких как majority voting), что может улучшить производительность, но для этой метрики мы рассматриваем только одну попытку.Self-reported
55.6%
ARC-C
точностьSelf-reported
60.9%
BigCodeBench
точностьSelf-reported
41.0%
CRUXEval-Input-CoT
точностьSelf-reported
56.5%
CRUXEval-Output-CoT
точностьSelf-reported
56.0%
LiveCodeBench
pass@1 Метод измерения эффективности первого прохода для задач, решаемых моделями искусственного интеллекта. Этот показатель измеряет долю или процент правильных ответов, полученных моделью с первой попытки, без предварительных итераций или уточнений. Используется для оценки базовой способности модели находить верное решение сразу, что имеет значение как для эффективности, так и для практического применения. Высокий показатель pass@1 указывает на то, что модель обладает достаточными знаниями и способностями рассуждения для решения задач без необходимости в нескольких попытках или дополнительных подсказках, что делает её более надёжной и практически применимой в реальных сценариях.Self-reported
18.2%
MMLU-Base
точностьSelf-reported
68.0%
MMLU-Pro
точностьSelf-reported
40.1%
MMLU-Redux
точностьSelf-reported
66.6%
STEM
точностьSelf-reported
34.0%
TheoremQA
точностьSelf-reported
34.0%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
19 сентября 2024 г.
Последнее обновление
19 июля 2025 г.