Qwen2.5-Coder 7B Instruct

Name: Qwen2.5-Coder 7B Instruct
Author: Alibaba

Alibaba

Qwen2.5-Coder — это специализированная модель для программирования, обученная на 5,5 триллионах токенов данных кода, поддерживающая 92 языка программирования с контекстным окном в 128K. Она превосходно справляется с генерацией, дополнением и исправлением кода, сохраняя при этом высокую производительность в математических и общих задачах. Модель демонстрирует исключительные возможности в задачах с несколькими языками программирования и в рассуждениях о коде.

Основные характеристики

Параметры

7.0B

Контекст

Дата выпуска

19 сентября 2024 г.

Средний балл

58.0%

API документация Исследование Репозиторий Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

19 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

22 июня 2026 г.

Технические характеристики

Параметры

7.0B

Токены обучения

5.5T токенов

Граница знаний

Семейство

Файн-тюнинг от

qwen-2.5-7b-instruct

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

точность • Self-reported

76.8%

MMLU

точность • Self-reported

67.6%

TruthfulQA

точность • Self-reported

50.6%

Winogrande

точность • Self-reported

72.9%

Программирование

Тесты на навыки программирования

HumanEval

pass@1 Этот метод оценивает эффективность модели, выполняя промпт всего один раз и проверяя правильность ответа. pass@1 даёт бинарную оценку: 1, если ответ правильный, и 0, если нет. Это простейший способ оценки, не требующий многократного выполнения для каждого примера. • Self-reported

88.4%

MBPP

pass@1 Проход с первой попытки (pass@1) означает, что модель должна решить задачу правильно с первой попытки, когда она встречает задачу впервые. В отличие от других настроек, таких как pass@k, при pass@1 модель не имеет возможности генерировать несколько попыток решения с последующим выбором лучшего ответа. Это строгая метрика, так как она измеряет способность модели найти правильное решение с первого раза. При оценке pass@1 выводы модели обычно проверяются на соответствие ожидаемому ответу с использованием регулярных выражений или специализированных проверок. Высокий показатель pass@1 указывает на то, что модель обладает надежным пониманием предметной области и может формулировать точные решения без необходимости в дополнительных попытках или корректировках. • Self-reported

83.5%

Математика

Математические задачи и вычисления

GSM8k

точность • Self-reported

83.9%

MATH

точность • Self-reported

46.6%

Другие тесты

Специализированные бенчмарки

Aider

pass@1 Мы определяем "pass@1" как вероятность того, что модель получит правильный ответ с первой попытки. Некоторые модели могут использовать несколько попыток для решения одной и той же задачи (например, с помощью техник выборки и рейтинга, таких как majority voting), что может улучшить производительность, но для этой метрики мы рассматриваем только одну попытку. • Self-reported

55.6%

ARC-C

точность • Self-reported

60.9%

BigCodeBench

точность • Self-reported

41.0%

CRUXEval-Input-CoT

точность • Self-reported

56.5%

CRUXEval-Output-CoT

точность • Self-reported

56.0%

LiveCodeBench

pass@1 Метод измерения эффективности первого прохода для задач, решаемых моделями искусственного интеллекта. Этот показатель измеряет долю или процент правильных ответов, полученных моделью с первой попытки, без предварительных итераций или уточнений. Используется для оценки базовой способности модели находить верное решение сразу, что имеет значение как для эффективности, так и для практического применения. Высокий показатель pass@1 указывает на то, что модель обладает достаточными знаниями и способностями рассуждения для решения задач без необходимости в нескольких попытках или дополнительных подсказках, что делает её более надёжной и практически применимой в реальных сценариях. • Self-reported

18.2%

MMLU-Base

точность • Self-reported

68.0%

MMLU-Pro

точность • Self-reported

40.1%

MMLU-Redux

точность • Self-reported

66.6%

STEM

точность • Self-reported

34.0%

TheoremQA

точность • Self-reported

34.0%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

19 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Qwen2.5-Coder 7B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Результаты бенчмарков

Общие знания

Программирование

Математика

Другие тесты

Лицензия и метаданные

Похожие модели

Qwen3.5 9B

Qwen2.5 7B Instruct

Qwen2 7B Instruct

Qwen3-Coder 480B A35B Instruct

Qwen2.5-Coder 32B Instruct

Qwen2.5 32B Instruct

Qwen2 72B Instruct

Qwen2.5 14B Instruct