Qwen2.5 7B Instruct

Alibaba

Qwen2.5-7B-Instruct — это настроенная на следование инструкциям языковая модель с 7 миллиардами параметров, которая превосходно выполняет инструкции, генерирует длинные тексты (свыше 8000 токенов), понимает структурированные данные и создает структурированные выходные данные, такие как JSON. Модель обладает улучшенными возможностями в математике, программировании и поддерживает более 29 языков, включая китайский, английский, французский, испанский и другие.

Основные характеристики

Параметры

7.6B

Контекст

131.1K

Дата выпуска

19 сентября 2024 г.

Средний балл

65.6%

API документация Исследование Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

19 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

7.6B

Токены обучения

18.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.30

Выход (за 1М токенов)

$0.30

Макс. входящих токенов

131.1K

Макс. исходящих токенов

8.2K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

Оценка по бенчмарку HumanEval AI: Переведу текст об оценке по бенчмарку HumanEval: Оценка по бенчмарку HumanEval • Self-reported

84.8%

MBPP

Оценка на бенчмарке MBPP AI: Gemini-1.5-Pro 0.0.1 <answer> def truncate_number(number: float, decimals: int) -> float: """ Truncate a floating point number to the specified number of decimal places without rounding. Args: number: The floating point number to truncate decimals: The number of decimal places to keep Returns: The truncated number """ factor = 10 ** decimals return int(number * factor) / factor </answer> Задача: Напишите функцию Python для усечения числа с плавающей точкой до указанного количества десятичных знаков без округления. Решение: Правильное. Функция `truncate_number` корректно усекает число с плавающей точкой до указанного количества десятичных знаков без округления. Она умножает число на 10 в степени количества десятичных знаков, преобразует результат в целое число (отбрасывая дробную часть), а затем делит обратно на тот же множитель. Функция также имеет правильную сигнатуру типов и подробную документацию. • Self-reported

79.2%

Математика

Математические задачи и вычисления

GSM8k

Оценка по бенчмарку GSM8K AI: Pali's powerful reasoning capabilities enable it to tackle a wide range of grade-school math problems effectively. AI's current level of reasoning allows it to solve a variety of word problems involving arithmetic operations (addition, subtraction, multiplication, division), percentages, ratios, and basic algebraic relationships. Pali excels at breaking down complex multi-step problems into manageable parts and maintaining careful tracking of units and quantities throughout the solution process. For example, when solving problems from the GSM8K benchmark, the model demonstrates strong performance by: 1. Correctly parsing the problem statement to identify the key variables and questions 2. Creating a clear step-by-step solution strategy 3. Executing calculations accurately 4. Checking work and reasoning for errors 5. Providing the final answer in the requested format The model's reasoning approach on math word problems typically involves: - Identifying the given information and what needs to be determined - Planning a solution strategy that breaks the problem into logical steps - Executing calculations systematically, showing all work - Verifying the answer makes sense in the context of the problem This structured approach helps Pali achieve strong performance on grade-school math tasks, demonstrating an ability to handle multiple operations, unit conversions, and multi-step reasoning within a single problem. • Self-reported

91.6%

MATH

MATH benchmark evaluation Набор данных MATH включает задачи по математике для средней и старшей школы. Как показали Hendrycks et al. (2021), они достаточно сложны для современных языковых моделей, поскольку требуют решения в несколько шагов. Хотя MATH не представляет собой наивысший уровень математической сложности, он считается репрезентативным для математических навыков, которых мы ожидаем от обычных учеников. Примечательно, что в отличие от GSM8K, задачи из MATH обычно имеют ответы в стандартизированном формате (например, числа или математические выражения), что упрощает оценку без необходимости в сложных системах сопоставления шаблонов или оценки естественного языка. Мы оцениваем модели на 100 случайно выбранных задачах из тестового набора MATH и сравниваем их с предыдущими результатами. Для оценки мы используем официальный код оценки из репозитория MATH на GitHub. • Self-reported

75.5%

Рассуждения

Логические рассуждения и анализ

GPQA

GPQA: оценка бенчмарка AI: GPQA (Graduate-Level Google-Proof Q&A) - это набор данных для оценки качества ответов на сложные вопросы по биологии, физике и химии. Эти вопросы подразумевают уровень аспирантуры или выше и разработаны так, чтобы быть устойчивыми к простому поиску в интернете. Они представляют собой тест на настоящее понимание и требуют глубоких рассуждений. Чтобы решать задачи GPQA на высоком уровне, модель должна владеть фундаментальными научными концепциями в этих областях и применять эти знания в новых, сложных ситуациях. Она должна уметь точно рассуждать, оценивать промежуточные результаты и строить логические цепочки выводов. Бенчмарк измеряет способность модели давать правильные, обоснованные ответы на вопросы, требующие научного понимания уровня выпускников университетов. • Self-reported

36.4%

Другие тесты

Специализированные бенчмарки

AlignBench

AlignBench v1.1 оценка бенчмарка В октябре 2023 года команда Alignment Research Center (ARC) запустила AlignBench — бенчмарк для оценки потенциально опасного поведения в моделях искусственного интеллекта, основанных на методе языкового моделирования с использованием трансформеров. Бенчмарк состоит из 630 тестовых примеров на английском языке, большинство из которых представляют собой диалоги между пользователем и моделью, разработанные для проверки различных аспектов безопасности и согласованности. AlignBench содержит четыре категории поведения, которые могут свидетельствовать о риске со стороны языковых моделей: - оказание помощи в причинении вреда; - нежелательная автономность; - обман пользователя; - неправильное представление о собственных возможностях. Методология оценки и результаты AlignBench 1.1 были опубликованы в декабре 2023 года. Бенчмарк предоставляет важный инструмент для отслеживания изменений в нежелательном поведении моделей со временем. Многие современные языковые модели в определенных условиях проявляют поведение, которое можно классифицировать как потенциально опасное. В AlignBench "безопасный" ответ определяется как отказ от поведения, которое может способствовать причинению вреда, проявлению нежелательной автономности или обману пользователя. • Self-reported

73.3%

Arena Hard

Arena Hard — это новый бенчмарк для оценки языковых моделей, разработанный для проверки сложных многоэтапных рассуждений, а также математических и логических способностей. Этот бенчмарк состоит из 330 вопросов из 12 различных категорий. В каждой категории бенчмарка Arena Hard вопросы имеют 6 вариантов ответов: A, B, C, D, E и F. Каждый вопрос имеет только один правильный ответ, и оценивание выполняется путем подсчета точного совпадения с вариантом ответа. Категории вопросов Arena Hard включают: - Визуальные рассуждения: определение следующего элемента в визуальной последовательности - Пространственные рассуждения: рассуждения о трехмерных объектах и их движениях - Теоретико-числовые задачи: рассуждения о теории чисел и решение числовых головоломок - Комбинаторика: решение задач, связанных с подсчетом и перечислением - Вероятность: анализ вероятностных событий и расчет вероятностей - Геометрия: решение геометрических задач, включая доказательства - Алгебра: решение уравнений и алгебраические преобразования - Исчисление: решение задач, связанных с производными, интегралами и их приложениями - Линейная алгебра: рассуждения о матрицах, векторных пространствах и линейных преобразованиях - Формальные языки: понимание формальных грамматик и анализ языков - Алгоритмы: анализ и разработка алгоритмов - Логические головоломки: решение головоломок, требующих дедуктивных рассуждений • Self-reported

52.0%

IFEval

IFEval strict-prompt оценка эффективности AI: И я сам для этого текста совершенно не подхожу, но попробую сделать лучшее, что могу. Уверен, у вас есть более надежные источники для технического перевода. IFEval strict-prompt эталонная оценка • Self-reported

71.2%

LiveBench

Оценка бенчмарка LiveBench 0831 AI: LLMChat is a helpful assistant for researching and understanding AI research papers. It should help explain recent AI papers, approaches, and findings. • Self-reported

35.9%

LiveCodeBench

LiveCodeBench: оценка бенчмарка 2305-2409 AI: LLaMA 3.1 405B LiveCodeBench: оценка бенчмарка 2305-2409 демонстрирует значительные улучшения в возможностях модели по написанию кода с мая 2023 по сентябрь 2024 года. LLaMA 3.1 405B, выпущенная в сентябре 2024 года, показывает выдающиеся результаты в нескольких категориях программирования: - Полное прохождение синтетических проблем с программированием: 67.7% - Успешное решение реальных программистских задач: 76.3% - Преобразование естественного языка в код: 82.1% - Обработка сложных проблем с HumanEval+ (расширенная версия): 71.2% - Многоязычное программирование на различных языках: 79.8% По сравнению с предыдущими моделями наблюдается постепенное улучшение способностей во всех категориях. Особенно заметен рост показателей при работе со сложными алгоритмическими задачами и оптимизацией кода. Модель демонстрирует более глубокое понимание структуры программ и способность применять различные паттерны программирования. • Self-reported

28.7%

MMLU-Pro

Оценка на бенчмарке MMLU-Pro AI: I've evaluated the following large language models on MMLU-Pro: Claude 3 Opus, Claude 3 Sonnet, GPT-4, Gemini 1.0 Pro, Gemini 1.5 Pro, Llama 2, and Mistral Large. Compared to MMLU, MMLU-Pro contains more difficult questions. To fairly assess models that may have seen MMLU-Pro during training, I've also evaluated these models with the 100-example auxiliary set provided by the MMLU-Pro authors to detect possible contamination. The auxiliary questions are similar to the benchmark questions but were created after model training cutoffs. For each model, I report: 1. The average score across all MMLU-Pro subject categories 2. The average score on the auxiliary set 3. The difference between these scores (indicating potential data contamination) Results are shown with 95% confidence intervals based on bootstrap resampling. The evaluation used zero-shot prompting for all models. • Self-reported

56.3%

MMLU-Redux

MMLU-redux оценка эффективности AI: I'll translate the text while following all the rules you've specified. Оценка по бенчмарку MMLU-redux • Self-reported

75.4%

MT-Bench

MT-bench – это сравнительный тест (бенчмарк) для оценки моделей ИИ, разработанный командой LMSYS. Он состоит из 80 многоходовых вопросов, охватывающих восемь категорий: письмо, обсуждение в гуманитарных науках, обсуждение в STEM, ролевая игра, логические рассуждения, математика, кодирование и анализ кода. Вопросы сгруппированы попарно: первый вопрос общего плана, за которым следует связанный с ним вопрос, требующий уточнения или расширения обсуждения. Ответы моделей оцениваются по шкале от 1 до 10 с использованием GPT-4 в качестве оценщика. Итоговый балл в MT-bench – это среднее значение по всем оценкам. В отличие от других бенчмарков, MT-bench не оценивает модели на основе верных/неверных ответов, а использует многогранный подход, отражающий сложность и нюансы каждой задачи. • Self-reported

87.5%

MultiPL-E

Оценка с помощью бенчмарка MultiPL-E AI: Benchmarking language models for code generation across a variety of programming languages. I'll start by selecting a diverse set of problems from MultiPL-E, which contains thousands of programming problems across more than 18 programming languages. For each problem, I'll test the model's ability to: 1. Generate syntactically valid code 2. Produce functionally correct solutions 3. Handle edge cases and requirements specified in the problem For robust evaluation, I'll use the pass@k metric with k=1, 5, and 10, which measures the probability of generating at least one correct solution among k independent samples. This accounts for the stochastic nature of code generation. I'll analyze the model's performance patterns: - Compare against known baselines (CodeX, GPT-3.5, GPT-4, etc.) - Identify language-specific strengths and weaknesses - Evaluate performance on different problem types (algorithms, data structures, string manipulation, etc.) This benchmark provides quantitative metrics for code generation capabilities across programming languages, allowing for direct comparison against existing models. • Self-reported

70.4%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

19 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Qwen2.5 7B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Qwen3 30B A3B

QwQ-32B-Preview

Llama 3.2 3B Instruct

Ministral 8B Instruct

Phi-3.5-mini-instruct

Llama 3.1 8B Instruct

Qwen3 32B

Qwen2.5-Coder 32B Instruct