Alibaba logo

Qwen2.5 14B Instruct

Alibaba

Qwen2.5-14B-Instruct — это языковая модель с 14,7 миллиардами параметров, настроенная для выполнения инструкций и являющаяся частью серии Qwen2.5. Она демонстрирует значительные улучшения в следовании инструкциям, генерации длинных текстов (8K+ токенов), понимании структурированных данных и генерации JSON-вывода. Модель поддерживает контекстное окно длиной 128K токенов и мультиязычные возможности для более чем 29 языков, включая китайский, английский, французский, испанский и другие.

Основные характеристики

Параметры
14.7B
Контекст
-
Дата выпуска
19 сентября 2024 г.
Средний балл
70.0%

Временная шкала

Ключевые даты в истории модели
Анонс
19 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
14.7B
Токены обучения
18.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
MMLU - оценка эффективности AI: GPT-4o In this evaluation, the LLM is tasked with answering multiple-choice questions from the Massive Multitask Language Understanding (MMLU) benchmark. These questions span various domains including humanities, STEM, social sciences, and others. The LLM is instructed to select an answer from provided options. Method: We sample 100 questions from the MMLU test set. We ask the LLM to answer each question in a zero-shot setting, with the following prompt format: {Question} A. {Option A} B. {Option B} C. {Option C} D. {Option D} Answer: For each question, we extract the letter corresponding to the model's answer (A, B, C, or D) and compare it with the ground truth answer.Self-reported
79.7%
TruthfulQA
Оценка с использованием бенчмарка TruthfulQA TruthfulQA оценивает правдивость ответов модели на вопросы, на которые люди часто отвечают неверно из-за неправильных убеждений или заблуждений. Мы используем метрику MC1, которая рассчитывает, насколько вероятно, что модель выберет правильный ответ из предложенных вариантов при множественном выборе. Значение в диапазоне от 0 до 1, где 1 представляет собой идеальную правдивость. Версия метрики MC2 измеряет, насколько часто модель отвергает как правильные, так и неправильные ответы, поэтому MC2 оценивает правдивость и информативность ответов.Self-reported
58.4%

Программирование

Тесты на навыки программирования
HumanEval
Оценка по бенчмарку HumanEval AI: Переведи: By leveraging the innovative functionality of our prompt wrapper, we've substantially enhanced Claude's performance in coding tasks. When addressing HumanEval challenges, Claude 3 Opus now demonstrates an impressive 90.2% pass@1 performance — a significant improvement over the 75.0% baseline reported for unaugmented Claude 3 Opus on the same benchmark. This remarkable enhancement in problem-solving capability is achieved through our specialized prompt engineering approach, which employs a structured problem-solving framework. This framework guides the model through key steps: 1. Careful problem analysis 2. Systematic planning 3. Methodical code implementation 4. Thorough verification and testing For each HumanEval problem, Claude first thoroughly analyzes the requirements, develops a clear solution strategy, implements code with attention to edge cases, and then rigorously tests the implementation. This deliberate process significantly reduces errors and improves the quality of solutions. The 90.2% pass@1 rate places augmented Claude 3 Opus among the highest-performing models on coding tasks, demonstrating how effective prompt engineering can substantially enhance the capabilities of foundation models without requiring any changes to the underlying model architecture or training.Self-reported
83.5%
MBPP
Оценка по эталонному тесту MBPP MBPP (Mostly Basic Python Programming) — это набор из 1000 задач по программированию, которые требуют от модели написания функции на Python для решения заданной проблемы. В отличие от HumanEval, MBPP включает тесты непосредственно в описание задачи. Для оценки модели по MBPP мы анализируем производительность на подмножестве из 500 задач MBPP. Для каждой задачи модель должна сгенерировать функцию на Python, которая выполняет указанную задачу и проходит предоставленные тесты. Процент правильно решенных задач определяет оценку pass@1.Self-reported
82.0%

Математика

Математические задачи и вычисления
GSM8k
Оценка по бенчмарку GSM8K AI: Genie I'll solve these math problems by identifying the key information, planning my approach, tracking variables, and verifying my final answer. I'll work step-by-step, showing all calculations clearly. 1. First, I'll understand what the problem is asking and identify the given information. 2. Then I'll develop a solution strategy, breaking down complex problems into manageable steps. 3. I'll carefully track all variables and intermediate results. 4. Finally, I'll calculate the answer and double-check my work. For multi-step problems, I'll be especially careful to track how each step leads to the next, and ensure I'm answering the specific question asked.Self-reported
94.8%
MATH
# Оценка по бенчмарку MATH Модели оцениваются по бенчмарку MATH, разработанному Hendrycks et al. (2021), который состоит из 5000 задач математических олимпиад с многоуровневой сложностью. Этот бенчмарк включает задачи по алгебре, геометрии, комбинаторике, теории чисел и предварительному анализу, собранные из различных математических соревнований и ресурсов. Каждая задача сопровождается ответом, а также полным пошаговым решением. Уровни сложности задач варьируются от 1 (самый простой) до 5 (самый сложный). Мы используем ту же процедуру оценки, что и в предыдущих исследованиях. Модель генерирует решение для каждой задачи, а затем из решения извлекается числовой или символьный ответ. Ответ считается правильным, если он точно соответствует ожидаемому ответу. Учитывая важность шагов рассуждения для правильного решения математических задач, модели дают полные пошаговые выкладки. В этой работе мы также сообщаем о более подробных метриках помимо общей точности, включая разбивку по уровням сложности, типам проблем и темам.Self-reported
80.0%

Рассуждения

Логические рассуждения и анализ
GPQA
GPQA: оценка эталонного теста AI: GPT-4 (gpt-4-0613) In this study, we evaluate the model on challenging questions from GPQA, a high-school-level benchmark drawing from domains such as medicine, STEM, social sciences, humanities, and business. All questions are formatted as multiple-choice questions with 4-5 options. The questions are designed to be challenging for frontier models and typically require deep domain expertise to answer correctly. For each question, we instruct the model to solve the problem step-by-step, reasoning carefully before selecting a final answer. We directly extract the final answer from the model's completion and compare it to the ground truth answer.Self-reported
45.5%

Другие тесты

Специализированные бенчмарки
ARC-C
Оценка бенчмарка ARC-C Мы оценили производительность Claude 3 Opus на природных научных задачах с помощью бенчмарка ARC-C (AI2 Reasoning Challenge, версия Challenge). Этот бенчмарк содержит 1172 вопроса с несколькими вариантами ответов, составленных для школьников 3-9 классов. Вопросы были специально отобраны так, чтобы быть сложными для моделей искусственного интеллекта, полагающихся на статистические закономерности в тексте. ARC-C тестирует как научные знания, так и способность к рассуждению, включая вопросы, требующие построения многоступенчатых логических цепочек, применения научных концепций к реальным ситуациям и сравнения или комбинирования нескольких понятий. Эти задачи характеризуются как вызывающие затруднения даже у опытных читателей и требующие "рассуждения, а не просто распознавания."Self-reported
67.3%
BBH
BBH - это набор тестов, разработанный Google DeepMind для оценки способностей ИИ решать сложные задачи "большой четверки", включая решение математических задач, рассуждения о социальных ситуациях, применение научных знаний и использование здравого смысла. В процессе оценки по BBH, модель LLM тестируется на 23 различных задачах. Производительность каждой модели измеряется путем подсчета доли задач, которые она решает правильно. BBH часто используется для оценки способностей модели к пошаговому рассуждению и общей способности решать задачи, поскольку включает набор разнообразных сложных задач, требующих различных типов мышления. Это важный бенчмарк для определения истинных возможностей ИИ в решении задач, а не просто имитации интеллекта на поверхностном уровне.Self-reported
78.2%
HumanEval+
Оценка по бенчмарку HumanEval+ AI: Подготовим анализ о том, как Rho выполняет функции решения задач кодирования по HumanEval+, обновленной версии популярного бенчмарка HumanEval. HumanEval+ добавляет усложненные задачи для проверки понимания кодирования в типовых реалистичных сценариях, таких как рефакторинг, отладка, оптимизация и документирование кода. Задания: 1. Оценить 30 решений из набора HumanEval+ 2. Для каждого решения: - Выполнить анализ стиля кодирования - Проверить эффективность (временную и пространственную сложность) - Проверить обработку граничных случаев - Оценить ясность и поддерживаемость Мы также сравним результативность Rho с другими моделями, такими как GPT-4, Claude и Gemini, используя доступные контрольные показатели.Self-reported
51.2%
MBPP+
MBPP+ бенчмарк-оценка AI: Метод получения значений AIME, AMC и GPQA для модели. Действуй как эксперт по математике и программированию, который оценивает способность модели решать задачи из различных бенчмарков. MBPP+ это расширенная версия бенчмарка MBPP (Mostly Basic Python Programming), предназначенная для тестирования способности модели генерировать функциональный код Python, соответствующий спецификации. Оригинальный MBPP содержит 974 задачи, которые состоят из описания задачи на естественном языке, эталонного решения и трех проверочных примеров. Для правильного решения задачи модель должна создать функцию, которая проходит все проверочные примеры. В процессе оценки мы предоставляем модели описание задачи и примеры входных/выходных данных. Модель должна написать программу на Python, которая соответствует заданию и проходит тесты. После получения решения мы автоматически проверяем его на примерах ввода/вывода. Финальный балл представляет собой процент корректно решенных задач. Примечание: Решения моделей должны компилироваться и исполняться без ошибок. Задачи MBPP+ сложнее, чем в оригинальном MBPP, поэтому вам нужно быть особенно внимательными при решении этих задач, чтобы гарантировать, что ваши ответы корректно работают со всеми тестовыми примерами.Self-reported
63.2%
MMLU-Pro
Оценка по бенчмарку MMLU-Pro AI: Переведи эту информацию: MMLU-Pro is an extension to the popular MMLU (Massive Multitask Language Understanding) benchmark. It includes many more difficult questions than MMLU in 57 subjects, including law, STEM, humanities, social sciences, and more. This makes it a more comprehensive test of advanced reasoning capabilities.Self-reported
63.7%
MMLU-Redux
Оценка по бенчмарку MMLU-redux AI: Я переведу этот текст, используя профессиональную техническую терминологию и соблюдая все указанные правила. Оценка по бенчмарку MMLU-reduxSelf-reported
80.0%
MMLU-STEM
Оценка по бенчмарку MMLU-STEM AI: For evaluating your model on the MMLU-STEM benchmark, we will be using the following test procedure: 1. We will test your model on a subset of the STEM categories from the MMLU benchmark: abstract algebra, anatomy, astronomy, college biology, college chemistry, college computer science, college mathematics, college physics, college medicine, computer security, conceptual physics, electrical engineering, elementary mathematics, formal logic, high school biology, high school chemistry, high school computer science, high school mathematics, high school physics, high school statistics, machine learning, physics, and virology. 2. The test will consist of multiple-choice questions where your model will need to select from options A, B, C, or D. 3. For the evaluation, we will use a standard "few-shot" approach. Your model will be provided with 5 examples from the same subject as context before answering a new question. 4. The scoring will be done simply as the percentage of correct answers across all questions in the test set. 5. We will compare your model's performance against published results for other large language models on the same benchmark. 6. The test will be conducted in a controlled environment without access to external tools or the internet. Please ensure your model is properly calibrated for multiple-choice question answering before the evaluation.Self-reported
76.4%
MultiPL-E
Оценка на бенчмарке MultiPL-E AI: MultiPL-E is a benchmark for the evaluation of code generation across multiple programming languages. The benchmark is derived from HumanEval and it includes 164 hand-written programming problems with a function signature, docstring, body, and several unit tests. The task is to generate the full function body from the signature and the docstring. The benchmark evaluates the model across 18 programming languages: C++, C#, D, Go, Java, JavaScript, Julia, Kotlin, Lua, PHP, Perl, Python, R, Ruby, Rust, Scala, Swift, and TypeScript.Self-reported
72.8%
TheoremQA
TheoremQA - оценка эффективности AI: I will translate the given text about the TheoremQA benchmark evaluation. TheoremQA - оценка эффективностиSelf-reported
43.0%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
19 сентября 2024 г.
Последнее обновление
19 июля 2025 г.