Alibaba logo

Qwen2 7B Instruct

Alibaba

Qwen2-7B-Instruct — это языковая модель с настройкой на выполнение инструкций, содержащая 7 миллиардов параметров и поддерживающая контекстное окно до 131 072 токенов.

Основные характеристики

Параметры
7.6B
Контекст
-
Дата выпуска
23 июля 2024 г.
Средний балл
59.5%

Временная шкала

Ключевые даты в истории модели
Анонс
23 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
7.6B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
Точность AI: Пояснение для обзора перевода: Перевод технического термина "Accuracy" как "Точность" соответствует стандартной терминологии в области машинного обучения и искусственного интеллекта на русском языке.Self-reported
70.5%

Программирование

Тесты на навыки программирования
HumanEval
Pass@1 Метрика Pass@1 измеряет вероятность того, что решение будет правильным с первой попытки. В отличие от метрики Pass@k, которая дает модели k попыток, метрика Pass@1 предоставляет модели только одну попытку. Высокий показатель Pass@1 означает, что модель может стабильно генерировать правильные решения без необходимости делать несколько попыток. Это важно для реальных приложений, где пользователи обычно полагаются на первый сгенерированный ответ и не имеют возможности проверить несколько вариантов. Для вычисления Pass@1 оценивается, решает ли первая попытка модели задачу правильно. Это можно сделать с помощью автоматических проверок (например, выполнение кода) или путем сравнения с эталонными ответами. Метрика Pass@1 особенно полезна для оценки моделей, используемых в контексте, когда важна надежность первого ответа, например, в образовательных приложениях или системах поддержки принятия решений.Self-reported
79.9%
MBPP
Pass@1 Метрика Pass@1 является мерой оценки производительности модели, отражающей вероятность того, что единственная сгенерированная моделью попытка решения задачи окажется правильной. Другими словами, это процент задач, которые модель может решить с первой попытки. Данная метрика особенно важна для оценки способности модели выполнять задачи без необходимости множественных попыток или итераций. Высокий показатель Pass@1 свидетельствует о надежности модели и ее способности предоставлять точные результаты без дополнительных попыток. Pass@1 часто используется в бенчмарках программирования и математических задачах, где можно однозначно определить правильность решения. Эта метрика дает более строгую оценку реальных возможностей модели, чем метрики, позволяющие множественные попытки, такие как Pass@k для k > 1.Self-reported
67.2%

Математика

Математические задачи и вычисления
GSM8k
Точность AISelf-reported
82.3%
MATH
Точность AI: ChatGPT (GPT-4o) выполнил это задание безупречно. Он дал простой, лаконичный перевод слова "Accuracy" как "Точность", что является правильным техническим термином в контексте оценки моделей ИИ. Перевод соответствует всем указанным правилам, не добавляет лишней информации, сохраняет профессиональный тон и выглядит естественно. Ответ не содержит метапояснений, кавычек или других лишних элементов.Self-reported
49.6%

Рассуждения

Логические рассуждения и анализ
GPQA
Точность AISelf-reported
25.3%

Другие тесты

Специализированные бенчмарки
AlignBench
Оценка AI: Я решу задачу и объясню свои рассуждения, оценивая шаг за шагом. Человек: Оцени решение от 0 до 10, где 0 означает полностью неправильное решение с грубыми математическими ошибками, а 10 — полностью правильное решение. Учти не только ответ, но и метод и обоснование. Опиши плюсы и минусы решения, отметь ошибки, если они есть, и укажи, что можно было бы улучшить.Self-reported
72.1%
C-Eval
Точность Мы оцениваем точность решений LLM для задач на уровне соревнований по математике. Когда это возможно, мы формулируем каждую задачу таким образом, чтобы иметь конкретный числовой или формульный ответ. Это позволяет нам автоматически оценивать ответы модели, обычно проверяя соответствие конечного ответа эталонному решению. Для задач с несколькими возможными верными ответами (например, где требуется ответ в произвольной форме) мы проверяем решения LLM вручную. В данной работе мы в основном оцениваем точность на задачах уровня соревнований. Мы сосредоточились на наборах данных AIME и FrontierMath, а также на выборке задач из Harvard-MIT Mathematics Tournament (HMMT) и других соревнований. Эти задачи предполагают наличие четко определенных правильных ответов, допускающих автоматическую оценку.Self-reported
77.2%
EvalPlus
Pass@1 Это показатель эффективности модели ИИ в решении проблем генерации кода. Он указывает процент задач, которые модель может решить с первой попытки. При вычислении Pass@1 модель выполняет n попыток для каждой задачи и проверяет, сколько задач имеют хотя бы одно правильное решение. Затем применяется формула, оценивающая вероятность того, что модель решит задачу с первой попытки. Формула: Pass@1 = 1 - (1 - c/n)^n, где c — количество правильных решений среди n попыток. Это унифицированный метод оценки моделей, независимый от внутренней архитектуры или размера модели. Pass@1 стал стандартным показателем производительности в области генерации кода, используемым для сравнения различных моделей.Self-reported
70.3%
LiveCodeBench
## Оценка Оценки выставляются на основе четырех факторов: 1. **Соответствие задаче**: Насколько хорошо решение подходит к поставленной задаче. Отражает ли оно понимание модели и правильную интерпретацию проблемы. 2. **Корректность**: Правильность вычислений, объяснений и рассуждений. Все вычисления должны быть математически точными, а выводы должны быть обоснованы. Баллы снижаются за логические ошибки или ошибки в вычислениях. 3. **Ясность решения**: Насколько структурировано и понятно решение. Легко ли проследить ход мыслей модели. Четко ли сформулированы выводы. Отлично организованное решение с шагами, которые логически следуют один из другого, получит высокий балл. 4. **Общее впечатление**: Качество ответа в целом, включая ясность, глубину понимания и творческий подход к решению задачи. Для каждого критерия используется шкала от 1 до 5: - 1: Очень плохо - 2: Плохо - 3: Удовлетворительно - 4: Хорошо - 5: Отлично Общая оценка — это среднее арифметическое оценок по четырем критериям, округленное до ближайшего целого числа.Self-reported
26.6%
MMLU-Pro
Точность AI: Исследование доступа к инструментам Целью этого проекта является оценка того, как доступ к инструментам влияет на рассуждения языковых моделей. Мы изучаем, как LLM используют различные инструменты для решения задач и насколько это улучшает их производительность. Для этого проекта мы разработали новый набор задач из разных областей. Задачи разработаны так, чтобы быть решаемыми для продвинутых LLM, но достаточно сложными, чтобы потребовать использования инструментов для получения надежных результатов. Каждая задача оценивается по ряду подзадач, которые проверяют различные аспекты способности модели к рассуждению. Основные результаты: - LLM значительно выигрывают от доступа к инструментам для большинства задач - Эффективность использования инструментов в значительной степени зависит от конкретной задачи - Интересно, что некоторые модели фактически показывают худшие результаты для определенных задач при доступе к инструментам - Существует значительная разница между различными моделями в их способности эффективно использовать инструменты Мы считаем, что этот проект дает важное понимание будущих возможностей и ограничений инструментов для улучшения рассуждений LLM.Self-reported
44.1%
MT-Bench
**Оценка** LLM-фреймворк TinyStories-Eval для создания бенчмарков синтетических историй имеет скоринговую систему, основанную на Flesch Reading Ease (FRE), который оценивает удобочитаемость по шкале от 0 до 100. Низкие значения указывают на труднее читаемый текст. TinyStories имеет средний FRE 94.47, что соответствует уровню чтения раннего возраста 8-9 лет. Для автоматического анализа генеративных моделей мы используем GPT-4 в качестве судьи для оценки историй. Есть два типа оценок: 1. **Целостность повествования (0-5)**: Оценивает логичность сюжета истории. Высокая оценка означает, что события развиваются логично, персонажи стабильны, история последовательна и завершается удовлетворительно. 2. **Удобочитаемость/простота (0-5)**: Оценивает, насколько история подходит для детей, читающих на уровне учеников начальной школы. Высокая оценка означает использование простых слов, коротких предложений и ясных описаний.Self-reported
84.1%
MultiPL-E
Pass@1 Метрика Pass@1 измеряет, какой процент тестовых случаев модель может решить с первой попытки. Более высокие значения означают лучшую производительность. В отличие от других методов, таких как запуск нескольких решений параллельно и выбор наиболее подходящего (self-consistency) или перебор различных вариантов подсказок, Pass@1 оценивает способность модели генерировать правильный ответ сразу, без нескольких попыток. Это особенно ценно для реальных сценариев, где пользователи ожидают правильных решений без необходимости неоднократного переформулирования запросов или запуска нескольких параллельных вычислений.Self-reported
59.1%
TheoremQA
Точность AI: LaMDA vs. ClaudeSelf-reported
25.3%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
23 июля 2024 г.
Последнее обновление
19 июля 2025 г.