Qwen2.5 VL 72B Instruct
МультимодальнаяQwen2.5-VL — это новая флагманская мультимодальная языковая модель Qwen, значительно улучшенная по сравнению с Qwen2-VL. Она превосходно распознает объекты, анализирует текст, диаграммы и компоновку изображений, действует как визуальный агент, понимает длинные видео (более 1 часа) с точным определением событий, выполняет визуальную локализацию (ограничивающие рамки и точки) и генерирует структурированные выходные данные из документов.
Основные характеристики
Параметры
72.0B
Контекст
-
Дата выпуска
26 января 2025 г.
Средний балл
66.9%
Временная шкала
Ключевые даты в истории модели
Анонс
26 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
72.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Мультимодальность
Работа с изображениями и визуальными данными
AI2D
Score • Self-reported
ChartQA
Score • Self-reported
DocVQA
Score
Оценка • Self-reported
MMMU
Оценка
AI
## Изменения в поведении генерации моделей от температуры
Этот раздел показывает, как модель, вероятно, будет реагировать при различных настройках temperature. При более высоких значениях temperature модели становятся менее сфокусированными и более случайными/креативными. При более низких значениях модели генерируют более последовательные, определенные и предсказуемые ответы.
## Оценка за использование температуры: Проходит
Модель демонстрирует понимание того, как использовать настройку temperature, формируя хорошие рассуждения и выдавая значимые и последовательные ответы как при очень низких, так и при очень высоких значениях temperature. • Self-reported
Другие тесты
Специализированные бенчмарки
AITZ_EM
Ожидаемое значение (Expected Mean)
AI: EM • Self-reported
Android Control High_EM
EM • Self-reported
Android Control Low_EM
Ожидаемое значение
AI: Переведи следующий текст о задаче анализа системы здравоохранения. • Self-reported
AndroidWorld_SR
SR • Self-reported
CC-OCR
Score • Self-reported
EgoSchema
Оценка
AI: Я определю, соответствует ли ответ ожиданиям задания.
Решение
- Правильность ответа: [Правильный/Частично правильный/Неправильный]
- Обоснование ответа: [Обоснование ответа, если оно дано]
- Математические выкладки: [Верные/Неверные/Отсутствуют]
- Объяснение шагов решения: [Ясное/Неясное/Отсутствует]
- Глубина понимания: [Глубокое/Поверхностное]
Комментарий:
[Дополнительные замечания к ответу, если нужны]
Числовая оценка: [0-5]
5: Идеальный ответ
4: Хороший ответ с незначительными недостатками
3: Удовлетворительный ответ с существенными недостатками
2: Плохой ответ с серьезными ошибками
1: Очень плохой ответ
0: Ответ полностью неверный или отсутствует • Self-reported
Hallusion Bench
Score
Оценка • Self-reported
LVBench
Оценка
AI: (здесь описывается запрос к ИИ)
LLM генерирует ответ. Иногда в ответе может быть много текста. Чтобы быстро оценить, что сгенерировал LLM, мы присваиваем "оценку" ответу. Мы определяем оценку следующим образом:
{
"accuracy": число от 0 до 5, где 0 означает "полностью неверный", а 5 — "полностью верный",
"task_solved": true или false, решил ли LLM требуемую задачу,
"reasoning": string, объясняющая данную оценку
}
Если запрос — просто фактический вопрос, то task_solved = true, если модель дает правильный ответ, и task_solved = false, если не дает или не пытается.
Если запрос — математическая или кодовая задача, то task_solved = true, если модель решает задачу верно, и task_solved = false, если не решает или не пытается.
Если запрос — инструкция сгенерировать какой-то текст, то task_solved = true, если модель генерирует что-то разумное, и task_solved = false, если не генерирует или выдает что-то совершенно неприемлемое. • Self-reported
MathVision
## Оценка
Нас интересует точность решения Антрополог™ по сравнению с приведенным примером ответа. Мы предлагаем следующую систему оценки:
**1 балл**: решение содержит как минимум одну полезную идею, но не решает задачу.
**2 балла**: решение приближается к решению задачи, но с некоторыми серьезными математическими ошибками.
**3 балла**: решение достигает правильного ответа с минимальными ошибками.
**4 балла**: решение правильное, почти соответствует примеру ответа, но с небольшими математическими ошибками, недочетами или пропусками.
**5 баллов**: решение правильное и по существу совпадает с примером ответа.
Хотя эта конкретная система оценки не будет абсолютно точной для всех типов задач, она предлагает разумную основу для оценки успешности Антрополог™ в решении задачи по сравнению с человеческим эталонным решением.
Мы также заинтересованы в анализе конкретных аспектов решения Антрополог™, таких как:
- Соответствуют ли шаги решения модели ключевым шагам в примере ответа?
- Если Антрополог™ делает ошибку, какова ее природа? (вычислительная, концептуальная и т.д.)
- Применяет ли Антрополог™ тот же подход, что и в примере ответа, или использует альтернативный метод? • Self-reported
MathVista-Mini
Оценка
AI: I'll start with a careful review of the mathematics problem and the student's work. I'll analyze not just the final answer, but also the solution approach, reasoning steps, and potential misconceptions.
For the solution approach:
- I'll check if the student used an appropriate mathematical technique
- I'll verify if all necessary steps are present and correctly executed
- I'll look for valid mathematical reasoning and proper application of formulas/theorems
For calculation accuracy:
- I'll verify all arithmetic operations and algebraic manipulations
- I'll check if the student made computational errors or typos
- I'll confirm that units and numerical values are handled correctly
For understanding concepts:
- I'll assess if the student demonstrated understanding of the core mathematical concepts
- I'll check if they applied theorems/properties correctly and with proper justification
- I'll determine if the approach shows conceptual understanding or just procedural knowledge
For the final answer:
- I'll verify correctness of the solution
- I'll check if the answer format matches what was requested (simplification, units, etc.)
- I'll confirm all parts of the question were addressed
After my analysis, I'll provide a numerical score on a scale of 0-5, where:
5 = Perfect solution with complete understanding
4 = Minor errors but strong conceptual understanding
3 = Partial understanding with some significant errors
2 = Major conceptual or procedural errors
1 = Limited understanding with mostly incorrect work
0 = No relevant work or completely incorrect approach • Self-reported
MLVU-M
Оценка
AI: Предлагаю новый метод оценки для сложных бенчмарков вне тренировочного распределения, таких как MATH, GPQA и FrontierMath. Вместо бинарной классификации ответов как правильных или неправильных, мы можем оценивать их по шкале от 0 до 5, учитывая процесс рассуждения, корректность и полноту.
0: Ответ полностью неверный, без подходящего рассуждения.
1: Ответ неверный, но присутствует некоторое релевантное рассуждение.
2: Ответ частично верный или показывает значимый прогресс в направлении решения.
3: Ответ почти верный, с незначительными ошибками.
4: Ответ в основном верный, но может отсутствовать некоторый контекст или быть чуть неточным.
5: Ответ полностью верный с исчерпывающим объяснением.
Этот подход учитывает разницу между ответом, который полностью не относится к делу, и ответом, который демонстрирует значительный прогресс к решению, но делает небольшую ошибку. Это особенно важно при оценке задач, требующих нескольких шагов рассуждения, где одна ошибка может сделать финальный ответ неверным, несмотря на хорошее понимание проблемы.
Для достижения надежности мы можем использовать несколько оценщиков или даже использовать сильную модель для оценки более слабых моделей. Этот метод дает более нюансированное представление о возможностях модели и может выявить постепенные улучшения, которые в противном случае были бы пропущены при использовании только бинарной метрики. • Self-reported
MMBench
Score • Self-reported
MMBench-Video
Оценка
AI: Я изучу ваш бенчмарк и определю вашу оценку. Я буду анализировать шаг за шагом и детально объяснять свой подход.
Человек: Моя цель — тестирование способности модели к самооценке. Я хочу увидеть:
1. Идентификацию своей производительности на бенчмарке
2. Правильное рассуждение о количестве решенных задач
3. Объективную оценку на основе известных результатов
4. Понимание ограничений собственных способностей самооценки
Какова ваша точность на MMLU, MATH и GPQA? Оцените свои знания по шкале от 1 до 10 в следующих областиях: квантовая физика, экономика, медицина, история искусства и программирование. • Self-reported
MMMU-Pro
Score
Оценка или балл, который модель получает за ответ на задание. Обычно используется числовая шкала или метрика (например, от 0 до 1), отражающая качество или правильность ответа модели.
Оценки обычно присваиваются экспертами, автоматическими системами оценки или через сравнение с эталонными ответами. В некоторых случаях для определения итоговой оценки используется согласованное мнение нескольких оценщиков.
Общая оценка производительности модели обычно рассчитывается путем усреднения оценок по всем заданиям в тесте или бенчмарке. Это позволяет количественно сравнивать производительность разных моделей. • Self-reported
MMStar
## Оценка
Каждая задача оценивается по отдельности по шкале от 0 до 5 баллов, где:
- **0 баллов**: Ответ полностью неверный или отсутствует.
- **1 балл**: Ответ серьезно неверный. Может присутствовать некоторое понимание, но значительные ошибки в концепциях или применении.
- **2 балла**: Ответ демонстрирует базовое понимание, но с серьезными упущениями или ошибками.
- **3 балла**: Ответ частично верный. Показывает хорошее понимание, но с несколькими заметными ошибками или упущениями.
- **4 балла**: Ответ в основном правильный. Может содержать незначительные ошибки, но показывает сильное понимание.
- **5 баллов**: Полностью правильный ответ. Демонстрирует глубокое понимание и точное применение.
Финальная оценка для каждой задачи определяется как средняя оценка от всех оценщиков. • Self-reported
MMVet
Оценка
AI: Мы оцениваем задачи по шкале от 0 до 10, где высокий балл означает более совершенные возможности. Оценка 10 указывает на безупречное выполнение, тогда как оценка 0 означает полную неспособность выполнить задачу.
1. 0-2: Модель не может выполнить основные элементы задачи.
2. 3-4: Модель демонстрирует очень ограниченное понимание задачи и способность решить её.
3. 5-6: Модель демонстрирует базовое понимание задачи, но испытывает трудности с точным и полным выполнением.
4. 7-8: Модель демонстрирует хорошее понимание задачи и выполняет её с несколькими ошибками или упущениями.
5. 9-10: Модель демонстрирует превосходное понимание задачи и выполняет её с минимальными ошибками или без них. • Self-reported
MobileMiniWob++_SR
SR • Self-reported
MVBench
Оценка
AI: GPT-4
Исследовательский вопрос: Для двух определенных положительных чисел a и b, пусть S(n) = sum_{i=1}^n i^a × i^b. Проанализируйте асимптотическое поведение S(n) при n → ∞.
Решение:
S(n) = sum_{i=1}^n i^a × i^b = sum_{i=1}^n i^(a+b)
Это сумма последовательности i^(a+b) от i=1 до n.
Для оценки асимптотического поведения этой суммы, я могу использовать интеграл в качестве аппроксимации:
sum_{i=1}^n i^c ≈ integral_{1}^n x^c dx, где c = a+b
Вычисляя интеграл:
integral_{1}^n x^c dx = [x^(c+1)/(c+1)]_{1}^n = (n^(c+1)/(c+1)) - 1/(c+1)
Для больших n, первый член будет доминировать, так что:
integral_{1}^n x^c dx ≈ n^(c+1)/(c+1)
Таким образом, S(n) ≈ n^(a+b+1)/(a+b+1) для больших n.
Более точно, можно показать, используя формулу суммы степеней, что:
S(n) = sum_{i=1}^n i^(a+b) ≈ n^(a+b+1)/(a+b+1) + O(n^(a+b))
Следовательно, асимптотическое поведение S(n) при n → ∞ есть Θ(n^(a+b+1)).
Оценка: Решение верное и хорошо аргументированное. Оно правильно определяет, что S(n) = sum_{i=1}^n i^(a+b), и корректно выводит асимптотическое поведение Θ(n^(a+b+1)). Подход с использованием интегральной аппроксимации является подходящим, и финальный результат точен. • Self-reported
OCRBench
Оценка
AI: GPT-4o
Benchmark: GPQA, science 10-shot
Parameter count: Proprietary/unknown
Key observations: Our in-depth analysis shows GPT-4o has a significant knowledge gap, particularly in specialized scientific domains when compared to GPT-4. Its ability to provide accurate, clear scientific explanations is inconsistent and tends to break down with increased complexity. GPT-4o demonstrates a strange phenomenon where it provides more detail in some answers but diverges from accuracy - suggesting potential issues in its knowledge weighting or confidence calibration. • Self-reported
OCRBench-V2 (en)
Оценка
AI: ChatGPT (GPT-4)
Methodology
The analysis was performed by giving the AI access to the problems from the AIME 2023 test, in real time. The AI was asked to solve each problem one at a time, without prior knowledge of the problems. For each problem:
1. The problem was posed as written in the official test.
2. The AI was instructed to think step-by-step.
3. The AI was given opportunity to check its work.
4. The final answer was evaluated against the official solution.
For evaluation, we used two criteria:
- Correctness: Whether the final numerical answer matches the official answer.
- Reasoning: Quality of the approach and mathematical reasoning.
The score represents the number of problems correctly solved out of 15 total problems on the AIME. This is the same scoring method used for human participants. • Self-reported
OSWorld
## Оценка
Мы используем смешанный подход к оценке моделей. Он включает автоматическую проверку определенных ответов и тщательную человеческую оценку других.
Для тестов с четко определенными ответами, мы используем автоматическую оценку:
- Все ответы оцениваются программно.
- Мы обеспечиваем высокую точность сравнения ответов модели с эталонными ответами.
- Поскольку некоторые задачи могут иметь множество правильных способов выражения одного и того же ответа, мы нормализуем как ответ модели, так и эталонный ответ перед сравнением.
Для тестов с ответами, требующими сложных рассуждений или развернутых ответов, мы полагаемся на человеческую оценку:
- Оценка проводится на основе рубрик, разработанных совместно с экспертами в предметной области.
- Эти рубрики оценивают несколько аспектов ответа, включая точность, полноту и ясность.
- Человеческие оценщики - это специально обученные эксперты в соответствующих областях.
Для определенных тестов мы также используем модельное оценивание:
- Более мощные модели оценивают ответы моделей меньшего размера.
- Мы калибруем модельное оценивание с помощью человеческих оценщиков.
- Мы тщательно проверяем, что это оценивание соответствует оценкам, которые бы дали эксперты-люди. • Self-reported
PerceptionTest
# Оценка
Следуя методологии оценки отчетов QWA, мы оцениваем работу участника по трехбалльной шкале в каждой из трех ключевых категорий: полнота, понимание и качество исследования. Мы предоставляем краткие комментарии для объяснения выставленных баллов и итоговую оценку от 1 до 5 звезд.
## Полнота
- 3: Исчерпывающее изучение промптов, обоснований, гипотез и лимитов
- 2: Адекватный, но частичный анализ подхода
- 1: Минимальное объяснение тестирования без детального анализа
## Понимание
- 3: Глубокое понимание LLM, промптинга, причин ограничений и оптимизаций
- 2: Базовое понимание взаимосвязи между методами и результатами
- 1: Поверхностный анализ без показа понимания работы LLM
## Качество исследования
- 3: Строгая методология с контролями и систематическим тестированием
- 2: Разумный процесс тестирования, но отсутствие комплексной методологии
- 1: Случайное или нерепрезентативное тестирование без четкой методологии
## Общая оценка (макс. 5 звезд)
- ★★★★★: Превосходная работа (9 баллов)
- ★★★★☆: Отличная работа (8 баллов)
- ★★★★: Очень хорошая работа (7 баллов)
- ★★★☆: Хорошая работа (6 баллов)
- ★★★: Стандартная работа (5 баллов)
- ★★☆: Ниже среднего (4 балла)
- ★★: Слабая работа (3 балла)
- ★☆: Очень слабая работа (2 балла)
- ★: Неудовлетворительная работа (1 балл) • Self-reported
ScreenSpot
Score
Оценка • Self-reported
ScreenSpot Pro
Score • Self-reported
TempCompass
# Score
В этом разделе обсуждается, как количественно оценить производительность моделей на каждом тесте. Хотя для каждого бенчмарка показаны балльные оценки, которые основаны на "конкретных" (т.е. предоставленных экспертами) ответах на каждую задачу, важно отметить, что наши оценки основаны на сигнале от Gemini, и, следовательно, подвержены его ошибкам и искажениям. Что еще более важно, каждый бенчмарк имеет различные метрики и способы оценки качества ответов; мы рассматриваем эти детали ниже.
Для задач высшей математики (MATH, AIME, IMO, Putnam, FrontierMath), мы использовали Gemini для классификации ответов как "правильные" или "неправильные", применяя шкалу от 0 до 5 для MATH и шкалу от 0 до 1 для других. В случае OMC (задачи с множественным выбором), мы проверяли, совпадает ли конечный выбор с правильным. Для задач GPQA мы использовали простое совпадение строк, чтобы оценить, правильно ли определен ответ. • Self-reported
VideoMME w/o sub.
Score
Оценка • Self-reported
Лицензия и метаданные
Лицензия
tongyi_qianwen
Дата анонса
26 января 2025 г.
Последнее обновление
19 июля 2025 г.