Qwen2.5-Coder 7B Instruct
Qwen2.5-Coder — это специализированная модель для программирования, обученная на 5,5 триллионах токенов данных кода, поддерживающая 92 языка программирования с контекстным окном в 128K. Она превосходно справляется с генерацией, дополнением и исправлением кода, сохраняя при этом высокую производительность в математических и общих задачах. Модель демонстрирует исключительные возможности в задачах с несколькими языками программирования и в рассуждениях о коде.
Основные характеристики
Параметры
7.0B
Контекст
-
Дата выпуска
19 сентября 2024 г.
Средний балл
58.0%
Временная шкала
Ключевые даты в истории модели
Анонс
19 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
7.0B
Токены обучения
5.5T токенов
Граница знаний
-
Семейство
-
Файн-тюнинг от
qwen-2.5-7b-instruct
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
точность • Self-reported
MMLU
точность • Self-reported
TruthfulQA
точность • Self-reported
Winogrande
точность • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
pass@1
Этот метод оценивает эффективность модели, выполняя промпт всего один раз и проверяя правильность ответа. pass@1 даёт бинарную оценку: 1, если ответ правильный, и 0, если нет. Это простейший способ оценки, не требующий многократного выполнения для каждого примера. • Self-reported
MBPP
pass@1
Проход с первой попытки (pass@1) означает, что модель должна решить задачу правильно с первой попытки, когда она встречает задачу впервые. В отличие от других настроек, таких как pass@k, при pass@1 модель не имеет возможности генерировать несколько попыток решения с последующим выбором лучшего ответа. Это строгая метрика, так как она измеряет способность модели найти правильное решение с первого раза.
При оценке pass@1 выводы модели обычно проверяются на соответствие ожидаемому ответу с использованием регулярных выражений или специализированных проверок. Высокий показатель pass@1 указывает на то, что модель обладает надежным пониманием предметной области и может формулировать точные решения без необходимости в дополнительных попытках или корректировках. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
точность • Self-reported
MATH
точность • Self-reported
Другие тесты
Специализированные бенчмарки
Aider
pass@1
Мы определяем "pass@1" как вероятность того, что модель получит правильный ответ с первой попытки. Некоторые модели могут использовать несколько попыток для решения одной и той же задачи (например, с помощью техник выборки и рейтинга, таких как majority voting), что может улучшить производительность, но для этой метрики мы рассматриваем только одну попытку. • Self-reported
ARC-C
точность • Self-reported
BigCodeBench
точность • Self-reported
CRUXEval-Input-CoT
точность • Self-reported
CRUXEval-Output-CoT
точность • Self-reported
LiveCodeBench
pass@1
Метод измерения эффективности первого прохода для задач, решаемых моделями искусственного интеллекта. Этот показатель измеряет долю или процент правильных ответов, полученных моделью с первой попытки, без предварительных итераций или уточнений. Используется для оценки базовой способности модели находить верное решение сразу, что имеет значение как для эффективности, так и для практического применения.
Высокий показатель pass@1 указывает на то, что модель обладает достаточными знаниями и способностями рассуждения для решения задач без необходимости в нескольких попытках или дополнительных подсказках, что делает её более надёжной и практически применимой в реальных сценариях. • Self-reported
MMLU-Base
точность • Self-reported
MMLU-Pro
точность • Self-reported
MMLU-Redux
точность • Self-reported
STEM
точность • Self-reported
TheoremQA
точность • Self-reported
Лицензия и метаданные
Лицензия
apache_2_0
Дата анонса
19 сентября 2024 г.
Последнее обновление
19 июля 2025 г.