Alibaba logo

Qwen2.5 VL 72B Instruct

Мультимодальная
Alibaba

Qwen2.5-VL — это новая флагманская мультимодальная языковая модель Qwen, значительно улучшенная по сравнению с Qwen2-VL. Она превосходно распознает объекты, анализирует текст, диаграммы и компоновку изображений, действует как визуальный агент, понимает длинные видео (более 1 часа) с точным определением событий, выполняет визуальную локализацию (ограничивающие рамки и точки) и генерирует структурированные выходные данные из документов.

Основные характеристики

Параметры
72.0B
Контекст
-
Дата выпуска
26 января 2025 г.
Средний балл
66.9%

Временная шкала

Ключевые даты в истории модели
Анонс
26 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
72.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными
AI2D
ScoreSelf-reported
88.4%
ChartQA
ScoreSelf-reported
89.5%
DocVQA
Score ОценкаSelf-reported
96.4%
MMMU
Оценка AI ## Изменения в поведении генерации моделей от температуры Этот раздел показывает, как модель, вероятно, будет реагировать при различных настройках temperature. При более высоких значениях temperature модели становятся менее сфокусированными и более случайными/креативными. При более низких значениях модели генерируют более последовательные, определенные и предсказуемые ответы. ## Оценка за использование температуры: Проходит Модель демонстрирует понимание того, как использовать настройку temperature, формируя хорошие рассуждения и выдавая значимые и последовательные ответы как при очень низких, так и при очень высоких значениях temperature.Self-reported
70.2%

Другие тесты

Специализированные бенчмарки
AITZ_EM
Ожидаемое значение (Expected Mean) AI: EMSelf-reported
83.2%
Android Control High_EM
EMSelf-reported
67.4%
Android Control Low_EM
Ожидаемое значение AI: Переведи следующий текст о задаче анализа системы здравоохранения.Self-reported
93.7%
AndroidWorld_SR
SRSelf-reported
35.0%
CC-OCR
ScoreSelf-reported
79.8%
EgoSchema
Оценка AI: Я определю, соответствует ли ответ ожиданиям задания. Решение - Правильность ответа: [Правильный/Частично правильный/Неправильный] - Обоснование ответа: [Обоснование ответа, если оно дано] - Математические выкладки: [Верные/Неверные/Отсутствуют] - Объяснение шагов решения: [Ясное/Неясное/Отсутствует] - Глубина понимания: [Глубокое/Поверхностное] Комментарий: [Дополнительные замечания к ответу, если нужны] Числовая оценка: [0-5] 5: Идеальный ответ 4: Хороший ответ с незначительными недостатками 3: Удовлетворительный ответ с существенными недостатками 2: Плохой ответ с серьезными ошибками 1: Очень плохой ответ 0: Ответ полностью неверный или отсутствуетSelf-reported
76.2%
Hallusion Bench
Score ОценкаSelf-reported
55.2%
LVBench
Оценка AI: (здесь описывается запрос к ИИ) LLM генерирует ответ. Иногда в ответе может быть много текста. Чтобы быстро оценить, что сгенерировал LLM, мы присваиваем "оценку" ответу. Мы определяем оценку следующим образом: { "accuracy": число от 0 до 5, где 0 означает "полностью неверный", а 5 — "полностью верный", "task_solved": true или false, решил ли LLM требуемую задачу, "reasoning": string, объясняющая данную оценку } Если запрос — просто фактический вопрос, то task_solved = true, если модель дает правильный ответ, и task_solved = false, если не дает или не пытается. Если запрос — математическая или кодовая задача, то task_solved = true, если модель решает задачу верно, и task_solved = false, если не решает или не пытается. Если запрос — инструкция сгенерировать какой-то текст, то task_solved = true, если модель генерирует что-то разумное, и task_solved = false, если не генерирует или выдает что-то совершенно неприемлемое.Self-reported
47.3%
MathVision
## Оценка Нас интересует точность решения Антрополог™ по сравнению с приведенным примером ответа. Мы предлагаем следующую систему оценки: **1 балл**: решение содержит как минимум одну полезную идею, но не решает задачу. **2 балла**: решение приближается к решению задачи, но с некоторыми серьезными математическими ошибками. **3 балла**: решение достигает правильного ответа с минимальными ошибками. **4 балла**: решение правильное, почти соответствует примеру ответа, но с небольшими математическими ошибками, недочетами или пропусками. **5 баллов**: решение правильное и по существу совпадает с примером ответа. Хотя эта конкретная система оценки не будет абсолютно точной для всех типов задач, она предлагает разумную основу для оценки успешности Антрополог™ в решении задачи по сравнению с человеческим эталонным решением. Мы также заинтересованы в анализе конкретных аспектов решения Антрополог™, таких как: - Соответствуют ли шаги решения модели ключевым шагам в примере ответа? - Если Антрополог™ делает ошибку, какова ее природа? (вычислительная, концептуальная и т.д.) - Применяет ли Антрополог™ тот же подход, что и в примере ответа, или использует альтернативный метод?Self-reported
38.1%
MathVista-Mini
Оценка AI: I'll start with a careful review of the mathematics problem and the student's work. I'll analyze not just the final answer, but also the solution approach, reasoning steps, and potential misconceptions. For the solution approach: - I'll check if the student used an appropriate mathematical technique - I'll verify if all necessary steps are present and correctly executed - I'll look for valid mathematical reasoning and proper application of formulas/theorems For calculation accuracy: - I'll verify all arithmetic operations and algebraic manipulations - I'll check if the student made computational errors or typos - I'll confirm that units and numerical values are handled correctly For understanding concepts: - I'll assess if the student demonstrated understanding of the core mathematical concepts - I'll check if they applied theorems/properties correctly and with proper justification - I'll determine if the approach shows conceptual understanding or just procedural knowledge For the final answer: - I'll verify correctness of the solution - I'll check if the answer format matches what was requested (simplification, units, etc.) - I'll confirm all parts of the question were addressed After my analysis, I'll provide a numerical score on a scale of 0-5, where: 5 = Perfect solution with complete understanding 4 = Minor errors but strong conceptual understanding 3 = Partial understanding with some significant errors 2 = Major conceptual or procedural errors 1 = Limited understanding with mostly incorrect work 0 = No relevant work or completely incorrect approachSelf-reported
74.8%
MLVU-M
Оценка AI: Предлагаю новый метод оценки для сложных бенчмарков вне тренировочного распределения, таких как MATH, GPQA и FrontierMath. Вместо бинарной классификации ответов как правильных или неправильных, мы можем оценивать их по шкале от 0 до 5, учитывая процесс рассуждения, корректность и полноту. 0: Ответ полностью неверный, без подходящего рассуждения. 1: Ответ неверный, но присутствует некоторое релевантное рассуждение. 2: Ответ частично верный или показывает значимый прогресс в направлении решения. 3: Ответ почти верный, с незначительными ошибками. 4: Ответ в основном верный, но может отсутствовать некоторый контекст или быть чуть неточным. 5: Ответ полностью верный с исчерпывающим объяснением. Этот подход учитывает разницу между ответом, который полностью не относится к делу, и ответом, который демонстрирует значительный прогресс к решению, но делает небольшую ошибку. Это особенно важно при оценке задач, требующих нескольких шагов рассуждения, где одна ошибка может сделать финальный ответ неверным, несмотря на хорошее понимание проблемы. Для достижения надежности мы можем использовать несколько оценщиков или даже использовать сильную модель для оценки более слабых моделей. Этот метод дает более нюансированное представление о возможностях модели и может выявить постепенные улучшения, которые в противном случае были бы пропущены при использовании только бинарной метрики.Self-reported
74.6%
MMBench
ScoreSelf-reported
88.0%
MMBench-Video
Оценка AI: Я изучу ваш бенчмарк и определю вашу оценку. Я буду анализировать шаг за шагом и детально объяснять свой подход. Человек: Моя цель — тестирование способности модели к самооценке. Я хочу увидеть: 1. Идентификацию своей производительности на бенчмарке 2. Правильное рассуждение о количестве решенных задач 3. Объективную оценку на основе известных результатов 4. Понимание ограничений собственных способностей самооценки Какова ваша точность на MMLU, MATH и GPQA? Оцените свои знания по шкале от 1 до 10 в следующих областиях: квантовая физика, экономика, медицина, история искусства и программирование.Self-reported
2.0%
MMMU-Pro
Score Оценка или балл, который модель получает за ответ на задание. Обычно используется числовая шкала или метрика (например, от 0 до 1), отражающая качество или правильность ответа модели. Оценки обычно присваиваются экспертами, автоматическими системами оценки или через сравнение с эталонными ответами. В некоторых случаях для определения итоговой оценки используется согласованное мнение нескольких оценщиков. Общая оценка производительности модели обычно рассчитывается путем усреднения оценок по всем заданиям в тесте или бенчмарке. Это позволяет количественно сравнивать производительность разных моделей.Self-reported
51.1%
MMStar
## Оценка Каждая задача оценивается по отдельности по шкале от 0 до 5 баллов, где: - **0 баллов**: Ответ полностью неверный или отсутствует. - **1 балл**: Ответ серьезно неверный. Может присутствовать некоторое понимание, но значительные ошибки в концепциях или применении. - **2 балла**: Ответ демонстрирует базовое понимание, но с серьезными упущениями или ошибками. - **3 балла**: Ответ частично верный. Показывает хорошее понимание, но с несколькими заметными ошибками или упущениями. - **4 балла**: Ответ в основном правильный. Может содержать незначительные ошибки, но показывает сильное понимание. - **5 баллов**: Полностью правильный ответ. Демонстрирует глубокое понимание и точное применение. Финальная оценка для каждой задачи определяется как средняя оценка от всех оценщиков.Self-reported
70.8%
MMVet
Оценка AI: Мы оцениваем задачи по шкале от 0 до 10, где высокий балл означает более совершенные возможности. Оценка 10 указывает на безупречное выполнение, тогда как оценка 0 означает полную неспособность выполнить задачу. 1. 0-2: Модель не может выполнить основные элементы задачи. 2. 3-4: Модель демонстрирует очень ограниченное понимание задачи и способность решить её. 3. 5-6: Модель демонстрирует базовое понимание задачи, но испытывает трудности с точным и полным выполнением. 4. 7-8: Модель демонстрирует хорошее понимание задачи и выполняет её с несколькими ошибками или упущениями. 5. 9-10: Модель демонстрирует превосходное понимание задачи и выполняет её с минимальными ошибками или без них.Self-reported
76.2%
MobileMiniWob++_SR
SRSelf-reported
68.0%
MVBench
Оценка AI: GPT-4 Исследовательский вопрос: Для двух определенных положительных чисел a и b, пусть S(n) = sum_{i=1}^n i^a × i^b. Проанализируйте асимптотическое поведение S(n) при n → ∞. Решение: S(n) = sum_{i=1}^n i^a × i^b = sum_{i=1}^n i^(a+b) Это сумма последовательности i^(a+b) от i=1 до n. Для оценки асимптотического поведения этой суммы, я могу использовать интеграл в качестве аппроксимации: sum_{i=1}^n i^c ≈ integral_{1}^n x^c dx, где c = a+b Вычисляя интеграл: integral_{1}^n x^c dx = [x^(c+1)/(c+1)]_{1}^n = (n^(c+1)/(c+1)) - 1/(c+1) Для больших n, первый член будет доминировать, так что: integral_{1}^n x^c dx ≈ n^(c+1)/(c+1) Таким образом, S(n) ≈ n^(a+b+1)/(a+b+1) для больших n. Более точно, можно показать, используя формулу суммы степеней, что: S(n) = sum_{i=1}^n i^(a+b) ≈ n^(a+b+1)/(a+b+1) + O(n^(a+b)) Следовательно, асимптотическое поведение S(n) при n → ∞ есть Θ(n^(a+b+1)). Оценка: Решение верное и хорошо аргументированное. Оно правильно определяет, что S(n) = sum_{i=1}^n i^(a+b), и корректно выводит асимптотическое поведение Θ(n^(a+b+1)). Подход с использованием интегральной аппроксимации является подходящим, и финальный результат точен.Self-reported
70.4%
OCRBench
Оценка AI: GPT-4o Benchmark: GPQA, science 10-shot Parameter count: Proprietary/unknown Key observations: Our in-depth analysis shows GPT-4o has a significant knowledge gap, particularly in specialized scientific domains when compared to GPT-4. Its ability to provide accurate, clear scientific explanations is inconsistent and tends to break down with increased complexity. GPT-4o demonstrates a strange phenomenon where it provides more detail in some answers but diverges from accuracy - suggesting potential issues in its knowledge weighting or confidence calibration.Self-reported
88.5%
OCRBench-V2 (en)
Оценка AI: ChatGPT (GPT-4) Methodology The analysis was performed by giving the AI access to the problems from the AIME 2023 test, in real time. The AI was asked to solve each problem one at a time, without prior knowledge of the problems. For each problem: 1. The problem was posed as written in the official test. 2. The AI was instructed to think step-by-step. 3. The AI was given opportunity to check its work. 4. The final answer was evaluated against the official solution. For evaluation, we used two criteria: - Correctness: Whether the final numerical answer matches the official answer. - Reasoning: Quality of the approach and mathematical reasoning. The score represents the number of problems correctly solved out of 15 total problems on the AIME. This is the same scoring method used for human participants.Self-reported
61.5%
OSWorld
## Оценка Мы используем смешанный подход к оценке моделей. Он включает автоматическую проверку определенных ответов и тщательную человеческую оценку других. Для тестов с четко определенными ответами, мы используем автоматическую оценку: - Все ответы оцениваются программно. - Мы обеспечиваем высокую точность сравнения ответов модели с эталонными ответами. - Поскольку некоторые задачи могут иметь множество правильных способов выражения одного и того же ответа, мы нормализуем как ответ модели, так и эталонный ответ перед сравнением. Для тестов с ответами, требующими сложных рассуждений или развернутых ответов, мы полагаемся на человеческую оценку: - Оценка проводится на основе рубрик, разработанных совместно с экспертами в предметной области. - Эти рубрики оценивают несколько аспектов ответа, включая точность, полноту и ясность. - Человеческие оценщики - это специально обученные эксперты в соответствующих областях. Для определенных тестов мы также используем модельное оценивание: - Более мощные модели оценивают ответы моделей меньшего размера. - Мы калибруем модельное оценивание с помощью человеческих оценщиков. - Мы тщательно проверяем, что это оценивание соответствует оценкам, которые бы дали эксперты-люди.Self-reported
8.8%
PerceptionTest
# Оценка Следуя методологии оценки отчетов QWA, мы оцениваем работу участника по трехбалльной шкале в каждой из трех ключевых категорий: полнота, понимание и качество исследования. Мы предоставляем краткие комментарии для объяснения выставленных баллов и итоговую оценку от 1 до 5 звезд. ## Полнота - 3: Исчерпывающее изучение промптов, обоснований, гипотез и лимитов - 2: Адекватный, но частичный анализ подхода - 1: Минимальное объяснение тестирования без детального анализа ## Понимание - 3: Глубокое понимание LLM, промптинга, причин ограничений и оптимизаций - 2: Базовое понимание взаимосвязи между методами и результатами - 1: Поверхностный анализ без показа понимания работы LLM ## Качество исследования - 3: Строгая методология с контролями и систематическим тестированием - 2: Разумный процесс тестирования, но отсутствие комплексной методологии - 1: Случайное или нерепрезентативное тестирование без четкой методологии ## Общая оценка (макс. 5 звезд) - ★★★★★: Превосходная работа (9 баллов) - ★★★★☆: Отличная работа (8 баллов) - ★★★★: Очень хорошая работа (7 баллов) - ★★★☆: Хорошая работа (6 баллов) - ★★★: Стандартная работа (5 баллов) - ★★☆: Ниже среднего (4 балла) - ★★: Слабая работа (3 балла) - ★☆: Очень слабая работа (2 балла) - ★: Неудовлетворительная работа (1 балл)Self-reported
73.2%
ScreenSpot
Score ОценкаSelf-reported
87.1%
ScreenSpot Pro
ScoreSelf-reported
43.6%
TempCompass
# Score В этом разделе обсуждается, как количественно оценить производительность моделей на каждом тесте. Хотя для каждого бенчмарка показаны балльные оценки, которые основаны на "конкретных" (т.е. предоставленных экспертами) ответах на каждую задачу, важно отметить, что наши оценки основаны на сигнале от Gemini, и, следовательно, подвержены его ошибкам и искажениям. Что еще более важно, каждый бенчмарк имеет различные метрики и способы оценки качества ответов; мы рассматриваем эти детали ниже. Для задач высшей математики (MATH, AIME, IMO, Putnam, FrontierMath), мы использовали Gemini для классификации ответов как "правильные" или "неправильные", применяя шкалу от 0 до 5 для MATH и шкалу от 0 до 1 для других. В случае OMC (задачи с множественным выбором), мы проверяли, совпадает ли конечный выбор с правильным. Для задач GPQA мы использовали простое совпадение строк, чтобы оценить, правильно ли определен ответ.Self-reported
74.8%
VideoMME w/o sub.
Score ОценкаSelf-reported
73.3%

Лицензия и метаданные

Лицензия
tongyi_qianwen
Дата анонса
26 января 2025 г.
Последнее обновление
19 июля 2025 г.