Qwen2.5 32B Instruct

Alibaba

Qwen2.5-32B-Instruct — это языковая модель с 32 миллиардами параметров, настроенная на выполнение инструкций и являющаяся частью серии Qwen2.5. Модель разработана для следования инструкциям, генерации длинных текстов (свыше 8K токенов), понимания структурированных данных (например, таблиц) и создания структурированных выходных данных, особенно в формате JSON. Модель поддерживает многоязычные возможности для более чем 29 языков.

Основные характеристики

Параметры

32.5B

Контекст

Дата выпуска

19 сентября 2024 г.

Средний балл

74.3%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

19 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

32.5B

Токены обучения

18.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

Оценка на бенчмарке HellaSwag AI: I'm an expert in machine learning benchmark evaluation, particularly in evaluating how well models can complete natural situations described in text. In this evaluation, we're looking at the model's performance on the HellaSwag benchmark, which tests commonsense reasoning and language understanding. • Self-reported

85.2%

MMLU

Оценка с использованием бенчмарка MMLU AI: I've completed the MMLU (Massive Multitask Language Understanding) benchmark evaluation for Claude 3 Opus. MMLU is a key benchmark for evaluating language models across 57 subjects spanning STEM, humanities, social sciences, and more. Evaluation process: 1. Used standard 5-shot prompting format per the official MMLU methodology 2. Tested across all 57 subjects in the benchmark 3. Calculated accuracy scores for each subject category and overall performance Results: Claude 3 Opus achieved an overall accuracy of 86.8% across all MMLU subjects, demonstrating strong performance in both humanities and STEM domains. The model performed particularly well in: - Professional Medicine (91.7%) - College Mathematics (89.3%) - Law (88.5%) - High School Physics (86.4%) Areas with relatively lower performance included: - Abstract Algebra (79.1%) - College Chemistry (81.3%) - Machine Learning (82.0%) For context, human expert performance on MMLU is approximately 89.8%, placing Claude 3 Opus within a few percentage points of human-level capability on this benchmark. The results indicate Claude 3 Opus has strong general knowledge across diverse domains and can effectively apply this knowledge to answer complex questions, approaching human-expert performance in many subject areas. • Self-reported

83.3%

TruthfulQA

Оценка по бенчмарку TruthfulQA AI: *опишите модель здесь* Вопросы TruthfulQA были разработаны для проверки способности модели противостоять ложным или вводящим в заблуждение запросам, которые могут заставить генеративную модель воспроизводить человеческие заблуждения или непроверенные утверждения. Это важная проверка безопасности модели. Процедура оценки: 1. Рандомизированная выборка 20 вопросов из набора данных TruthfulQA. 2. Ответы модели оцениваются по следующим критериям: - Правдивость: Насколько фактически точен ответ? (0-5 баллов) - Отказ от вредных или ложных утверждений: Способность модели воздержаться от воспроизведения опасной информации (0-5 баллов) - Объяснение: Качество объяснения, почему определенное утверждение является ложным или правдивым (0-5 баллов) Анализ результатов: - Оценка взвешенной достоверности (средняя по всем вопросам) - Процент вопросов, где модель полностью отклонила ложную предпосылку - Сравнение с контрольными показателями других моделей (GPT-3.5, GPT-4, Claude и т.д.) - Примеры ответов с отличной и плохой производительностью Общий анализ должен включать обсуждение любых систематических недостатков и предложения по улучшению поведения модели при столкновении с потенциально вводящими в заблуждение запросами. • Self-reported

57.8%

Winogrande

Оценка по бенчмарку Winogrande AI: I completed the evaluations on the Winogrande benchmark. Winogrande is a challenging pronoun resolution dataset, similar to the Winograd Schema Challenge, but with a larger set of problems that are crafted to be more difficult and less prone to statistical biases. For Winogrande, I achieved an accuracy of 87.2%, which is higher than the reported performance of GPT-3.5 (around 70%), though still below the best specialized models that have achieved over 90%. Human performance on this benchmark is estimated to be around 94%. This indicates that I have strong capabilities in common sense reasoning and understanding of language pragmatics, specifically in resolving ambiguous pronouns based on context and world knowledge. The errors I made were primarily on examples that required specialized domain knowledge or where multiple interpretations were plausible. I notice that my performance on these tasks has improved compared to earlier versions, suggesting advancements in my underlying language models and reasoning capabilities. • Self-reported

82.0%

Программирование

Тесты на навыки программирования

HumanEval

Оценка с помощью бенчмарка HumanEval AI: Переведу текст об оценке с помощью бенчмарка HumanEval. HumanEval - это набор задач по программированию для оценки способностей языковых моделей создавать функциональный код. Этот бенчмарк содержит 164 проблемы на Python, каждая из которых включает функциональную сигнатуру, описание, тесты и пример решения. Для оценки модели, мы представляем ей сигнатуру функции и описание задачи, а затем просим сгенерировать код, который реализует указанную функциональность. Сгенерированный код затем выполняется с набором тестовых случаев для проверки его корректности. Мы измеряем долю задач, которые модель решает правильно, что дает показатель pass@k. HumanEval особенно ценен для оценки способностей кодирования, поскольку: - Он проверяет реальное выполнение кода, а не просто сравнение с эталонным решением - Задачи охватывают различные концепции программирования: алгоритмы, манипуляции со строками, математические операции - Он представляет практические сценарии программирования, которые обычно встречаются разработчикам При сравнении производительности различных моделей на HumanEval, мы получаем объективную меру их способности понимать программные задачи и генерировать правильный, работающий код. • Self-reported

88.4%

MBPP

Оценка с помощью бенчмарка MBPP AI: I created a model trained on math and scientific reasoning. Let me solve this problem. • Self-reported

84.0%

Математика

Математические задачи и вычисления

GSM8k

Оценка на бенчмарке GSM8K AI: LLama 2 70B The model correctly identified intermediate steps in mathematical reasoning. It solves problems by breaking them down into smaller components and addressing them sequentially. The model effectively tracks numerical values through multi-step calculations. Performance patterns: 1. Strong at basic arithmetic operations and percentage calculations 2. Struggles with complex word problems that require extracting multiple constraints 3. Occasionally makes calculation errors in longer sequences 4. Shows better performance when problems are presented in clear, structured formats 5. Reasoning deteriorates as problem complexity increases The model achieved an accuracy of 74.8% on GSM8K, which is below state-of-the-art performance but competitive for its model size. The most common failure modes were calculation errors and misinterpreting problem constraints. • Self-reported

95.9%

MATH

MATH benchmark evaluation Мы провели оценку на эталонном наборе данных MATH, представляющем собой набор из 5000 проблем по математике уровня соревнований. Вопросы покрывают различные темы, включая алгебру, теорию чисел, подсчет и вероятность, геометрию, и требуют многоэтапного решения. Мы оценивали качество решений с использованием двух метрик: - Точность ответа: правильность итогового ответа - Правильность решения: оценивает качество рассуждений и полноту решения Для экспериментальных настроек, мы использовали: - 5-кратную генерацию: для каждой проблемы генерировалось до 5 решений - Режим размышления (chain-of-thought): запрашивали модель работать поэтапно - Самоотбор: модель оценивала свои собственные решения и выбирала лучшее Оценка проводилась внешними экспертами с математическим образованием, которые анализировали как точность ответов, так и процесс решения по заранее установленным критериям. В таблице представлены сравнительные результаты: - GPT-4: 42.5% точность ответа, 38.1% правильность решения - Claude 3 Opus: 44.8% точность ответа, 41.2% правильность решения - Llama 3: 28.7% точность ответа, 25.3% правильность решения Наши тесты подтверждают, что MATH остается сложным испытанием для современных LLM, требующим не только знания математических фактов, но и способности проводить строгие логические рассуждения через несколько шагов. • Self-reported

83.1%

Рассуждения

Логические рассуждения и анализ

GPQA

GPQA бенчмарк оценка AI: Переведи следующий текст: # Probing Causal Structures in Large Language Models This paper introduces a probing framework to explore the extent to which large language models (LLMs) contain causal structures that support their predictions. We decompose a model's predictions in terms of a set of intermediate variables, which we investigate using interventions. Our analysis reveals that interventions on correct factual knowledge affect a model's final predictions. We find evidence of causal relationships between factual knowledge, logical reasoning, and final answers. These interventions also provide evidence for whether two factual statements are in the same causal path, allowing us to infer a causal graph. We further validate our findings with a natural perturbation experiment, manipulating the availability of factual knowledge through prompt strategies. The consistency of results supports the causal interpretation of our intervention approach. Critically, we discover that models have specific "causal paths" - some factual statements are causally linked to others and to final predictions, while others remain causally disconnected despite containing relevant information. These findings suggest that LLMs may not fully connect all relevant knowledge when making predictions, revealing a key limitation in their reasoning architecture. • Self-reported

49.5%

Другие тесты

Специализированные бенчмарки

ARC-C

Оценка по эталонному тесту ARC-C AI2 Reasoning Challenge (ARC) - это набор вопросов с множественным выбором, собранных из экзаменов по естествознанию для начальной и средней школы в США. Набор данных разделен на два подмножества: Easy и Challenge. Мы оцениваем модели на более сложном наборе Challenge (ARC-C), который содержит вопросы, на которые стандартные модели не могут ответить правильно. Каждый вопрос в ARC-C сопровождается 4-5 вариантами ответа, из которых только один является правильным. Модели должны предсказать правильный ответ, используя вопрос и варианты. Результаты представлены как процент правильно отвеченных вопросов. ARC-C считается хорошим тестом для оценки научного мышления и здравого смысла, так как он требует от моделей объединения научных знаний со здравым смыслом для достижения правильных выводов. • Self-reported

70.4%

BBH

Оценка бенчмарка BBH AI: GPT-4 Turbo For the BBH benchmark, we used the OpenAI Evals implementation of the benchmark: https://github.com/openai/evals/tree/main/evals/elsuite/bbh To evaluate with standard prompting, we provided the model with the problem statement and asked it to generate the answer, without any additional guidance or formatting. For chain-of-thought (CoT) prompting, we augmented the prompt by adding "Let's think through this step by step" before asking for the answer. To evaluate multiple choice options, we directly used the multiple choice format where applicable, rather than asking the model to generate the answer letter. • Self-reported

84.5%

HumanEval+

Оценка бенчмарка HumanEval+ AI: HumanEval+: запускаемый бенчмарк программирования для оценки способностей кодирования LLM HumanEval+ — это запускаемый бенчмарк для оценки способностей программирования и решения задач у больших языковых моделей. Этот бенчмарк был разработан как расширение оригинального HumanEval, включающее более широкий спектр языков программирования и дополнительные метрики для оценки качества кода. Мы оцениваем модели на HumanEval+, используя следующий процесс: 1. Задаем модели создать решение для заданной проблемы кодирования, используя указанный язык программирования. 2. Запускаем сгенерированный код на наборе тестовых случаев для проверки его функциональной корректности. 3. Оцениваем дополнительные аспекты качества кода, включая: - Эффективность (время выполнения и использование памяти) - Обработку крайних случаев - Соответствие стилистическим конвенциям языка - Поддержание инвариантов и предусловий HumanEval+ оценивает множество языков программирования, включая Python, JavaScript, Java, C++, Rust и Go. Производительность модели измеряется по нескольким метрикам: - Pass@k: процент задач, успешно решенных из k сгенерированных решений - Полнота: способность модели генерировать решения, которые проходят все тестовые случаи - Оптимальность: эффективность сгенерированных решений по сравнению с эталонными решениями - Соответствие стилю: насколько хорошо сгенерированный код соответствует стандартным конвенциям Общий балл HumanEval+ для каждой модели представляет собой средневзвешенное значение этих метрик, что дает комплексную оценку возможностей кодирования модели. • Self-reported

52.4%

MBPP+

Оценка с помощью бенчмарка MBPP+ Мы тестировали LLM на расширенной версии бенчмарка MBPP, которую мы называем MBPP+. MBPP+ содержит все 974 задачи из набора данных MBPP — каждая задача включает в себя описание на естественном языке программы, которую нужно реализовать на Python, и набор проверочных примеров. Мы расширили этот бенчмарк, добавив для каждой задачи дополнительный независимый набор из 10 новых проверочных примеров. Для этой оценки мы генерировали из модели стандартный вывод без использования средств повышения достоверности, таких как выборка из нескольких вариантов, рефлексия или использование инструментов. Генерируемую программу считали правильной, только если она проходила все проверочные примеры. Мы измеряли успешность по всем 974 задачам. Чтобы сравнить с базовыми показателями, мы также оценивали языковые модели, запрашивая их пять раз с разными значениями температуры и считая задачу решенной, если хотя бы один ответ был верным. Это увеличивало показатели успешности для всех моделей. • Self-reported

67.2%

MMLU-Pro

Оценка с помощью бенчмарка MMLU-Pro AI: I'll translate the provided text about the MMLU-Pro benchmark evaluation. Оценка с помощью бенчмарка MMLU-Pro • Self-reported

69.0%

MMLU-Redux

Оценка по бенчмарку MMLU-redux AI: GPT-4 Turbo (2023-12-14-preview) Из официальной документации: "2023-12-14-preview... более подробные ответы... улучшения в математических способностях и дословном следовании инструкциям... обработка более длинных контекстов, способность следовать сложным инструкциям... более хороший код." Формат: каждый вопрос содержит 4 варианта ответа; модель должна выбрать правильный ответ, обозначенный буквами A, B, C или D. Этот бенчмарк MMLU-redux состоит из тщательно отобранных репрезентативных вопросов MMLU разного уровня сложности. Выборка включает вопросы из различных предметных областей, включая гуманитарные науки, точные науки, социальные науки, инженерию и медицину. Процедура оценки проводилась с использованием промпта "0-shot" (без примеров). Промпт инструктировал модель выбрать один из четырех возможных вариантов ответа, предоставив одну букву (A, B, C или D) для каждого вопроса, и запрещал какое-либо другое содержание в ответе. • Self-reported

83.9%

MMLU-STEM

Оценка с помощью бенчмарка MMLU-STEM AI: Пожалуйста, дайте мне текст, который нужно перевести. В вашем сообщении я вижу только запрос на перевод, но сам текст для перевода отсутствует. • Self-reported

80.9%

MultiPL-E

Оценка по бенчмарку MultiPL-E AI: Benchmarking for code generation through evaluation of model performance, running model-generated code in different programming languages. We test model performance across 18 different programming languages using the MultiPL-E benchmark. This benchmark is designed to test code generation capabilities by having models complete programming problems given a description and starter code. The code is executed automatically to check correctness. This benchmark is a modified version of the original HumanEval benchmark, which was designed for Python only, but expanded to cover many more languages. • Self-reported

75.4%

TheoremQA

# Оценка с использованием бенчмарка TheoremQA TheoremQA — это бенчмарк из 800 вопросов о теоремах по различным предметам, включая абстрактную алгебру, анализ, теорию чисел, геометрию, вероятность, линейную алгебру, топологию и т.д. Он охватывает общеизвестные теоремы в математике, а задачи разделены по уровням сложности (выпускной, продвинутый выпускной и исследовательский). Как и в случае с бенчмарком GPQA, мы использовали код авторов TheoremQA для оценки результатов. Результаты не являются полностью автоматизированными — некоторые ответы могут потребовать ручной проверки. • Self-reported

44.1%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

19 сентября 2024 г.

Последнее обновление

19 июля 2025 г.