Qwen2.5-Coder 32B Instruct

Alibaba

Qwen2.5-Coder — это специализированная модель для программирования, обученная на 5,5 триллионах токенов кодовых данных, поддерживающая 92 языка программирования с контекстным окном в 128K токенов. Модель превосходно справляется с генерацией кода, автодополнением, исправлением ошибок и многоязычными задачами программирования, сохраняя при этом высокую производительность в математике и общих задачах.

Основные характеристики

Параметры

32.0B

Контекст

128.0K

Дата выпуска

19 сентября 2024 г.

Средний балл

64.9%

API документация Исследование Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

19 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

32.0B

Токены обучения

5.5T токенов

Граница знаний

Семейство

Файн-тюнинг от

qwen-2.5-32b-instruct

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.09

Выход (за 1М токенов)

$0.09

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

точность • Self-reported

83.0%

MMLU

точность • Self-reported

75.1%

TruthfulQA

точность • Self-reported

54.2%

Winogrande

точность • Self-reported

80.8%

Программирование

Тесты на навыки программирования

HumanEval

pass@1 Метод проверяет, способна ли модель решить задачу с первой попытки. Задача считается решенной, если ответ правильный при первом запуске. Если ответ неверный, задача считается нерешенной. Любые корректировки, дополнительные разъяснения, переформулировки вопроса или попытки решения на нескольких примерах не допускаются. Модель либо справляется с задачей с первой попытки, либо не справляется. Метрика не учитывает возможные улучшения при дополнительных попытках и отражает базовую способность модели решать задачи без итеративного подхода. • Self-reported

92.7%

MBPP

pass@1 Эта метрика оценивает вероятность того, что модель даст правильный ответ с первой попытки, то есть в своем первоначальном ответе. Для каждой задачи модель получает одно очко, если ее первый ответ содержит правильное решение, и ноль очков в противном случае. Итоговый балл представляет собой среднее значение по всем задачам. В отличие от других метрик, таких как pass@k, которые оценивают вероятность нахождения правильного ответа среди нескольких попыток, pass@1 оценивает способность модели находить правильное решение с первого раза. Это строгий критерий, поскольку он не допускает никаких ошибок в процессе решения. pass@1 является полезной метрикой для оценки надежности и точности модели в задачах, где важна первоначальная правильность, например, в образовательных приложениях или критических системах, где у пользователей может не быть возможности или ресурсов для проверки нескольких ответов. • Self-reported

90.2%

Математика

Математические задачи и вычисления

GSM8k

точность • Self-reported

91.1%

MATH

точность • Self-reported

57.2%

Другие тесты

Специализированные бенчмарки

ARC-C

точность • Self-reported

70.5%

BigCodeBench-Full

точность • Self-reported

49.6%

BigCodeBench-Hard

точность • Self-reported

27.0%

LiveCodeBench

pass@1 — это способ измерения производительности модели, когда ей предоставляется только одна попытка. Это стандартный метрический показатель, используемый для оценки модели на задачах, которые требуют точного ответа. Например, если модель отвечает на 75 из 100 вопросов правильно с первой попытки, то показатель pass@1 будет равен 75%. В отличие от других метрик, таких как pass@k (где модель генерирует k разных ответов и считается успешной, если хотя бы один правильный), pass@1 тестирует способность модели найти правильный ответ с первой попытки. Это более строгая мера, поскольку модель не получает нескольких шансов. Этот показатель особенно важен для практических приложений, где обычно требуется один конкретный ответ, а не несколько вариантов. • Self-reported

31.4%

MMLU-Pro

точность • Self-reported

50.4%

MMLU-Redux

точность • Self-reported

77.5%

TheoremQA

точность • Self-reported

43.1%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

19 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Qwen2.5-Coder 32B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Другие тесты

Лицензия и метаданные

Похожие модели

Qwen3 32B

Qwen3 30B A3B

QwQ-32B-Preview

Qwen2.5 72B Instruct

Phi 4

Codestral-22B

Llama 3.3 70B Instruct

Llama 3.1 70B Instruct