Alibaba logo

Qwen2.5-Coder 32B Instruct

Alibaba

Qwen2.5-Coder — это специализированная модель для программирования, обученная на 5,5 триллионах токенов кодовых данных, поддерживающая 92 языка программирования с контекстным окном в 128K токенов. Модель превосходно справляется с генерацией кода, автодополнением, исправлением ошибок и многоязычными задачами программирования, сохраняя при этом высокую производительность в математике и общих задачах.

Основные характеристики

Параметры
32.0B
Контекст
128.0K
Дата выпуска
19 сентября 2024 г.
Средний балл
64.9%

Временная шкала

Ключевые даты в истории модели
Анонс
19 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
32.0B
Токены обучения
5.5T токенов
Граница знаний
-
Семейство
-
Файн-тюнинг от
qwen-2.5-32b-instruct
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.09
Выход (за 1М токенов)
$0.09
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
точностьSelf-reported
83.0%
MMLU
точностьSelf-reported
75.1%
TruthfulQA
точностьSelf-reported
54.2%
Winogrande
точностьSelf-reported
80.8%

Программирование

Тесты на навыки программирования
HumanEval
pass@1 Метод проверяет, способна ли модель решить задачу с первой попытки. Задача считается решенной, если ответ правильный при первом запуске. Если ответ неверный, задача считается нерешенной. Любые корректировки, дополнительные разъяснения, переформулировки вопроса или попытки решения на нескольких примерах не допускаются. Модель либо справляется с задачей с первой попытки, либо не справляется. Метрика не учитывает возможные улучшения при дополнительных попытках и отражает базовую способность модели решать задачи без итеративного подхода.Self-reported
92.7%
MBPP
pass@1 Эта метрика оценивает вероятность того, что модель даст правильный ответ с первой попытки, то есть в своем первоначальном ответе. Для каждой задачи модель получает одно очко, если ее первый ответ содержит правильное решение, и ноль очков в противном случае. Итоговый балл представляет собой среднее значение по всем задачам. В отличие от других метрик, таких как pass@k, которые оценивают вероятность нахождения правильного ответа среди нескольких попыток, pass@1 оценивает способность модели находить правильное решение с первого раза. Это строгий критерий, поскольку он не допускает никаких ошибок в процессе решения. pass@1 является полезной метрикой для оценки надежности и точности модели в задачах, где важна первоначальная правильность, например, в образовательных приложениях или критических системах, где у пользователей может не быть возможности или ресурсов для проверки нескольких ответов.Self-reported
90.2%

Математика

Математические задачи и вычисления
GSM8k
точностьSelf-reported
91.1%
MATH
точностьSelf-reported
57.2%

Другие тесты

Специализированные бенчмарки
ARC-C
точностьSelf-reported
70.5%
BigCodeBench-Full
точностьSelf-reported
49.6%
BigCodeBench-Hard
точностьSelf-reported
27.0%
LiveCodeBench
pass@1 — это способ измерения производительности модели, когда ей предоставляется только одна попытка. Это стандартный метрический показатель, используемый для оценки модели на задачах, которые требуют точного ответа. Например, если модель отвечает на 75 из 100 вопросов правильно с первой попытки, то показатель pass@1 будет равен 75%. В отличие от других метрик, таких как pass@k (где модель генерирует k разных ответов и считается успешной, если хотя бы один правильный), pass@1 тестирует способность модели найти правильный ответ с первой попытки. Это более строгая мера, поскольку модель не получает нескольких шансов. Этот показатель особенно важен для практических приложений, где обычно требуется один конкретный ответ, а не несколько вариантов.Self-reported
31.4%
MMLU-Pro
точностьSelf-reported
50.4%
MMLU-Redux
точностьSelf-reported
77.5%
TheoremQA
точностьSelf-reported
43.1%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
19 сентября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.