Qwen2 72B Instruct

Alibaba

Qwen2-72B-Instruct — это языковая модель, настроенная на выполнение инструкций, с 72 миллиардами параметров, поддерживающая контекстное окно до 131 072 токенов. Она является частью новой серии Qwen2, которая превосходит большинство моделей с открытым исходным кодом и демонстрирует конкурентоспособность против проприетарных моделей в различных бенчмарках.

Основные характеристики

Параметры

72.0B

Контекст

Дата выпуска

23 июля 2024 г.

Средний балл

73.6%

API документация Исследование Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

72.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

Точность AI • Self-reported

87.6%

MMLU

Точность AI21 Lab • Self-reported

82.3%

TruthfulQA

Точность AI: 93.8% Human: 93.8% Claude 3 Opus выполняет простую задачу PARITY примерно с той же точностью, что и люди. Для этой задачи требуется проверить, имеет ли двоичная строка (например, "10110") четное или нечетное количество единиц. Хотя Claude демонстрирует человеческий уровень точности для всей задачи в целом, при более детальном рассмотрении его производительности по длине входных данных мы обнаруживаем интересный шаблон: модель почти идеально справляется с короткими входными данными, но точность резко падает по мере увеличения длины. Для двоичных строк длиной от 5 до 10 символов Claude достигает почти 100% точности, превосходя людей. Однако для строк длиной более 20 символов точность модели падает до примерно 80%, в то время как люди поддерживают высокую точность даже для длинных строк. Это говорит о том, что модель может использовать другую стратегию решения этой задачи по сравнению с людьми. В то время как люди последовательно отслеживают четность (добавляя +1 для каждой встреченной "1"), модель, возможно, пытается подсчитать все единицы, что становится более подвержено ошибкам при увеличении длины строки. • Self-reported

54.8%

Winogrande

Точность AI • Self-reported

85.1%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 Метрика оценки, отражающая точность или успешность генеративных моделей при первой попытке решения задачи. Вычисляется как доля задач, которые модель решает правильно с первого раза, без необходимости повторных попыток или итераций. Pass@1 часто используется при оценке производительности языковых моделей в задачах программирования или рассуждения. Высокий показатель Pass@1 означает, что модель может сразу генерировать корректные ответы, что особенно важно в сценариях, где нет возможности или желания проверять и исправлять ответы итеративно. В отличие от других метрик, которые допускают несколько попыток (например, Pass@k, где k > 1), Pass@1 представляет собой более строгий критерий, поскольку оценивает только первоначальный ответ модели. • Self-reported

86.0%

MBPP

Pass@1 Метрика оценки, измеряющая долю задач, которые языковая модель решает правильно с первой попытки. Это простейшая метрика, которая подсчитывает количество правильных ответов модели при единственной попытке. Хотя Pass@1 является распространенной метрикой для оценки производительности моделей, она может не отражать реальный потенциал модели в решении задач, поскольку не учитывает возможность нескольких попыток или вероятностную природу генерации ответов. Другие связанные метрики включают Pass@k (успешность решения задачи при k попытках) и ожидаемую производительность при решении с множественными попытками, которые могут дать более полное представление о способностях модели. • Self-reported

80.2%

Математика

Математические задачи и вычисления

GSM8k

Точность AI: 0.5, Human: 0.5 • Self-reported

91.1%

MATH

Точность Мы измеряем качество работы модели через точность — долю правильных ответов на задания. Мы считаем ответ правильным, если он совпадает с ответом эксперта. Наш подход к оценке точности варьируется в зависимости от типа задачи: - Для задач с множественным выбором мы проверяем, выбрала ли модель тот же вариант, что и эксперт. - Для открытых задач (например, математических задач с числовым ответом) мы используем строгое сравнение, допуская лишь незначительные отклонения в форматировании (например, "4" против "4.0"). - Для задач естественнонаучного понимания мы применяем ручную проверку, когда автоматическое сравнение показывает несоответствие. Эта метрика позволяет напрямую сравнивать эффективность разных моделей, методов или подходов к решению конкретных типов задач. • Self-reported

59.7%

Рассуждения

Логические рассуждения и анализ

GPQA

Точность AI • Self-reported

42.4%

Другие тесты

Специализированные бенчмарки

ARC-C

Точность AI • Self-reported

68.9%

BBH

Точность AI/ML Computer science Machine Learning Supervised Learning Accuracy is one of the most common evaluation metrics for classification tasks. It is defined as the number of correct predictions made by the model divided by the total number of predictions. Formally, accuracy = (TP + TN) / (TP + TN + FP + FN) where TP, TN, FP, and FN stand for True Positives, True Negatives, False Positives, and False Negatives, respectively. While accuracy is intuitive and easy to understand, it has limitations, particularly for imbalanced datasets where one class appears much more frequently than others. In such cases, a model can achieve high accuracy simply by predicting the majority class most of the time, without actually learning to distinguish between classes. For this reason, accuracy is often complemented by other metrics such as precision, recall, F1 score, or ROC AUC, which provide more nuanced evaluations of model performance. • Self-reported

82.4%

C-Eval

Точность AI models that aim to reliably produce correct answers to specific questions can be measured according to accuracy on test benchmarks. The correctness of a model's answer is generally determined by comparison to a reference, which is often a human consensus reference with high confidence. Benchmark accuracy is most useful when the questions have objectively correct answers, and it covers all capability dimensions that are relevant to the intended AI model use cases. Here are a few common types of benchmarks for accuracy: Knowledge: These benchmarks test a model's ability to recall facts correctly. Examples include TriviaQA, WebGPT Comparison, NaturalQuestions, and TruthfulQA. STEM Reasoning: Benchmarks like MMLU, GPQA, GSM8K, MATH, and competition math like AIME assess whether a model can apply the correct reasoning to solve challenging math, science, and engineering problems. Programming and Engineering: HumanEval, MBPP, and other code generation datasets test the model's ability to correctly complete a programming task or function. Multilingual: Datasets like MGSM, BELEBELE, Flores, XNLI etc. help assess whether the accuracy of a model generalizes across languages. AI Model developers typically report accuracy as a percentage of questions answered correctly, though some benchmarks have unique scoring methods, including partial credit for multi-step problems. Accuracy is just one component of capability evaluation. High accuracy alone doesn't guarantee that an AI model will be helpful or safe in real-world applications. • Self-reported

83.8%

CMMLU

Точность AI: ChatGPT-4 achieves almost perfect accuracy on elementary school level arithmetic problems. However, accuracy falls off dramatically when tackling upper level problems. While our model remains competitive with the state of the art, achieving high accuracy on advanced problems remains a significant challenge. • Self-reported

90.1%

EvalPlus

Pass@1 Метрика, описывающая успешность решения задачи с первой попытки. Она показывает, какой процент задач модель может решить с первого прохода, не используя многократных попыток или итеративных процессов. Высокое значение Pass@1 особенно важно в контекстах, где повторные попытки невозможны или дорогостоящи, и где требуется быстрое и точное решение с первого раза. Это может быть критично для систем реального времени или высокоответственных приложений. В отличие от метрик, допускающих многократные попытки, Pass@1 оценивает исключительно способность модели сразу выдать правильное решение, что является строгим показателем её понимания и компетентности в рассматриваемой задаче. • Self-reported

79.0%

MMLU-Pro

Точность AI models can vary in how accurate they are—that is, whether they produce correct answers to questions. Measuring accuracy is one of the most common model evaluation methods because it corresponds to our intuitive notion of model capabilities. Examples of evaluations focused on accuracy include answering multiple-choice questions on standardized tests, responding to trivia questions (e.g., TriviaQA), and computing answers to math problems (e.g., MATH, GSM8K). Metrics are highly task-dependent. For multiple-choice questions, a common choice is accuracy (i.e., the percentage of questions answered correctly). For other types of questions, metrics can include exact match, precision, recall, F1 score, and others, along with human assessments. • Self-reported

64.4%

MultiPL-E

Pass@1 Метрика Pass@1 измеряет вероятность того, что модель получит правильный ответ с первой попытки. Это выражается как процент задач, которые модель решает правильно с первой попытки. Во многих вычислительных задачах, особенно при кодировании, может потребоваться несколько попыток для достижения правильного решения. Pass@1 оценивает способность модели получить правильное решение с первой попытки без необходимости нескольких попыток. Для вычисления Pass@1 модель генерирует одно решение для каждой задачи, и эти решения оцениваются как правильные или неправильные. Процент правильных решений представляет собой показатель Pass@1. Высокий показатель Pass@1 указывает на то, что модель способна систематически генерировать правильные ответы без необходимости в нескольких попытках, что является признаком более глубокого понимания задачи и более высокой надежности. • Self-reported

69.2%

TheoremQA

Точность Мы оцениваем модели по их способности правильно решать задачи GPQA. Эта оценка наиболее близка к классическим оценкам в бенчмарках LLM. Мы также оцениваем способность моделей указывать на неопределенные или противоречивые аспекты вопросов, а также честно признавать свое незнание ответа. Мы также исследуем эволюцию ошибок от одной модели к другой. Не все ошибки одинаковы – некоторые виды ошибок чаще повторяются или труднее исправляются с улучшением модели. Понимание этих шаблонов может дать представление о слабостях и силе моделей, а также о том, насколько эффективно улучшение модели снижает различные виды ошибок. • Self-reported

44.4%

Лицензия и метаданные

Лицензия

tongyi_qianwen

Дата анонса

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.