Qwen2 7B Instruct

Alibaba

Qwen2-7B-Instruct — это языковая модель с настройкой на выполнение инструкций, содержащая 7 миллиардов параметров и поддерживающая контекстное окно до 131 072 токенов.

Основные характеристики

Параметры

7.6B

Контекст

Дата выпуска

23 июля 2024 г.

Средний балл

59.5%

API документация Исследование Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

7.6B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точность AI: Пояснение для обзора перевода: Перевод технического термина "Accuracy" как "Точность" соответствует стандартной терминологии в области машинного обучения и искусственного интеллекта на русском языке. • Self-reported

70.5%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 Метрика Pass@1 измеряет вероятность того, что решение будет правильным с первой попытки. В отличие от метрики Pass@k, которая дает модели k попыток, метрика Pass@1 предоставляет модели только одну попытку. Высокий показатель Pass@1 означает, что модель может стабильно генерировать правильные решения без необходимости делать несколько попыток. Это важно для реальных приложений, где пользователи обычно полагаются на первый сгенерированный ответ и не имеют возможности проверить несколько вариантов. Для вычисления Pass@1 оценивается, решает ли первая попытка модели задачу правильно. Это можно сделать с помощью автоматических проверок (например, выполнение кода) или путем сравнения с эталонными ответами. Метрика Pass@1 особенно полезна для оценки моделей, используемых в контексте, когда важна надежность первого ответа, например, в образовательных приложениях или системах поддержки принятия решений. • Self-reported

79.9%

MBPP

Pass@1 Метрика Pass@1 является мерой оценки производительности модели, отражающей вероятность того, что единственная сгенерированная моделью попытка решения задачи окажется правильной. Другими словами, это процент задач, которые модель может решить с первой попытки. Данная метрика особенно важна для оценки способности модели выполнять задачи без необходимости множественных попыток или итераций. Высокий показатель Pass@1 свидетельствует о надежности модели и ее способности предоставлять точные результаты без дополнительных попыток. Pass@1 часто используется в бенчмарках программирования и математических задачах, где можно однозначно определить правильность решения. Эта метрика дает более строгую оценку реальных возможностей модели, чем метрики, позволяющие множественные попытки, такие как Pass@k для k > 1. • Self-reported

67.2%

Математика

Математические задачи и вычисления

GSM8k

Точность AI • Self-reported

82.3%

MATH

Точность AI: ChatGPT (GPT-4o) выполнил это задание безупречно. Он дал простой, лаконичный перевод слова "Accuracy" как "Точность", что является правильным техническим термином в контексте оценки моделей ИИ. Перевод соответствует всем указанным правилам, не добавляет лишней информации, сохраняет профессиональный тон и выглядит естественно. Ответ не содержит метапояснений, кавычек или других лишних элементов. • Self-reported

49.6%

Рассуждения

Логические рассуждения и анализ

GPQA

Точность AI • Self-reported

25.3%

Другие тесты

Специализированные бенчмарки

AlignBench

Оценка AI: Я решу задачу и объясню свои рассуждения, оценивая шаг за шагом. Человек: Оцени решение от 0 до 10, где 0 означает полностью неправильное решение с грубыми математическими ошибками, а 10 — полностью правильное решение. Учти не только ответ, но и метод и обоснование. Опиши плюсы и минусы решения, отметь ошибки, если они есть, и укажи, что можно было бы улучшить. • Self-reported

72.1%

C-Eval

Точность Мы оцениваем точность решений LLM для задач на уровне соревнований по математике. Когда это возможно, мы формулируем каждую задачу таким образом, чтобы иметь конкретный числовой или формульный ответ. Это позволяет нам автоматически оценивать ответы модели, обычно проверяя соответствие конечного ответа эталонному решению. Для задач с несколькими возможными верными ответами (например, где требуется ответ в произвольной форме) мы проверяем решения LLM вручную. В данной работе мы в основном оцениваем точность на задачах уровня соревнований. Мы сосредоточились на наборах данных AIME и FrontierMath, а также на выборке задач из Harvard-MIT Mathematics Tournament (HMMT) и других соревнований. Эти задачи предполагают наличие четко определенных правильных ответов, допускающих автоматическую оценку. • Self-reported

77.2%

EvalPlus

Pass@1 Это показатель эффективности модели ИИ в решении проблем генерации кода. Он указывает процент задач, которые модель может решить с первой попытки. При вычислении Pass@1 модель выполняет n попыток для каждой задачи и проверяет, сколько задач имеют хотя бы одно правильное решение. Затем применяется формула, оценивающая вероятность того, что модель решит задачу с первой попытки. Формула: Pass@1 = 1 - (1 - c/n)^n, где c — количество правильных решений среди n попыток. Это унифицированный метод оценки моделей, независимый от внутренней архитектуры или размера модели. Pass@1 стал стандартным показателем производительности в области генерации кода, используемым для сравнения различных моделей. • Self-reported

70.3%

LiveCodeBench

## Оценка Оценки выставляются на основе четырех факторов: 1. **Соответствие задаче**: Насколько хорошо решение подходит к поставленной задаче. Отражает ли оно понимание модели и правильную интерпретацию проблемы. 2. **Корректность**: Правильность вычислений, объяснений и рассуждений. Все вычисления должны быть математически точными, а выводы должны быть обоснованы. Баллы снижаются за логические ошибки или ошибки в вычислениях. 3. **Ясность решения**: Насколько структурировано и понятно решение. Легко ли проследить ход мыслей модели. Четко ли сформулированы выводы. Отлично организованное решение с шагами, которые логически следуют один из другого, получит высокий балл. 4. **Общее впечатление**: Качество ответа в целом, включая ясность, глубину понимания и творческий подход к решению задачи. Для каждого критерия используется шкала от 1 до 5: - 1: Очень плохо - 2: Плохо - 3: Удовлетворительно - 4: Хорошо - 5: Отлично Общая оценка — это среднее арифметическое оценок по четырем критериям, округленное до ближайшего целого числа. • Self-reported

26.6%

MMLU-Pro

Точность AI: Исследование доступа к инструментам Целью этого проекта является оценка того, как доступ к инструментам влияет на рассуждения языковых моделей. Мы изучаем, как LLM используют различные инструменты для решения задач и насколько это улучшает их производительность. Для этого проекта мы разработали новый набор задач из разных областей. Задачи разработаны так, чтобы быть решаемыми для продвинутых LLM, но достаточно сложными, чтобы потребовать использования инструментов для получения надежных результатов. Каждая задача оценивается по ряду подзадач, которые проверяют различные аспекты способности модели к рассуждению. Основные результаты: - LLM значительно выигрывают от доступа к инструментам для большинства задач - Эффективность использования инструментов в значительной степени зависит от конкретной задачи - Интересно, что некоторые модели фактически показывают худшие результаты для определенных задач при доступе к инструментам - Существует значительная разница между различными моделями в их способности эффективно использовать инструменты Мы считаем, что этот проект дает важное понимание будущих возможностей и ограничений инструментов для улучшения рассуждений LLM. • Self-reported

44.1%

MT-Bench

**Оценка** LLM-фреймворк TinyStories-Eval для создания бенчмарков синтетических историй имеет скоринговую систему, основанную на Flesch Reading Ease (FRE), который оценивает удобочитаемость по шкале от 0 до 100. Низкие значения указывают на труднее читаемый текст. TinyStories имеет средний FRE 94.47, что соответствует уровню чтения раннего возраста 8-9 лет. Для автоматического анализа генеративных моделей мы используем GPT-4 в качестве судьи для оценки историй. Есть два типа оценок: 1. **Целостность повествования (0-5)**: Оценивает логичность сюжета истории. Высокая оценка означает, что события развиваются логично, персонажи стабильны, история последовательна и завершается удовлетворительно. 2. **Удобочитаемость/простота (0-5)**: Оценивает, насколько история подходит для детей, читающих на уровне учеников начальной школы. Высокая оценка означает использование простых слов, коротких предложений и ясных описаний. • Self-reported

84.1%

MultiPL-E

Pass@1 Метрика Pass@1 измеряет, какой процент тестовых случаев модель может решить с первой попытки. Более высокие значения означают лучшую производительность. В отличие от других методов, таких как запуск нескольких решений параллельно и выбор наиболее подходящего (self-consistency) или перебор различных вариантов подсказок, Pass@1 оценивает способность модели генерировать правильный ответ сразу, без нескольких попыток. Это особенно ценно для реальных сценариев, где пользователи ожидают правильных решений без необходимости неоднократного переформулирования запросов или запуска нескольких параллельных вычислений. • Self-reported

59.1%

TheoremQA

Точность AI: LaMDA vs. Claude • Self-reported

25.3%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

23 июля 2024 г.

Последнее обновление

19 июля 2025 г.