Alibaba logo

Qwen2.5 VL 7B Instruct

Мультимодальная
Alibaba

Qwen2.5-VL — это мультимодальная языковая модель из семейства Qwen. Ключевые улучшения включают визуальное понимание (объекты, текст, диаграммы, компоновка), возможности визуального агента (использование инструментов, управление компьютером/телефоном), понимание длинных видео с определением событий, визуальную локализацию (ограничивающие рамки/точки) и генерацию структурированного вывода.

Основные характеристики

Параметры
8.3B
Контекст
-
Дата выпуска
26 января 2025 г.
Средний балл
64.5%

Временная шкала

Ключевые даты в истории модели
Анонс
26 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
8.3B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными
ChartQA
Score В соответствии с протоколами оценки Anthropic, Claude присваивает ответам числовые оценки от 1 до 10, где 10 указывает на абсолютно правильные ответы, а 1 на полностью неверные. Claude использует логику, вычисления и свои внутренние знания для оценки правильности ответов. Оценивая математические ответы, Claude стремится определить, достигается ли числовой ответ через правильные вычисления и рассуждения. Если ответ и рассуждение полностью корректны, Claude присваивает оценку 10. Если ответ неверен, но методология содержит некоторые правильные шаги, Claude выставляет оценку, отражающую степень правильности метода. Если рассуждения и ответ полностью неверны, Claude присваивает оценку 1. Для неоднозначных случаев Claude рассматривает обоснованность рассуждений, релевантность использованных идей и общее направление решения.Self-reported
87.3%
DocVQA
ScoreSelf-reported
95.7%
MMMU
Оценка AI: I'll generate a number from 1 to 10 to assess the model's response based on quality, relevance, and reasoning: 1-3: Poor response, significant errors or irrelevance 4-6: Adequate response with some issues 7-8: Good response with minor flaws 9-10: Excellent, comprehensive response My score: [number] Justification: [detailed explanation for the score, highlighting strengths and weaknesses]Self-reported
58.6%

Другие тесты

Специализированные бенчмарки
AITZ_EM
EMSelf-reported
81.9%
Android Control High_EM
EMSelf-reported
60.1%
Android Control Low_EM
EMSelf-reported
91.4%
AndroidWorld_SR
SRSelf-reported
25.5%
CC-OCR
Оценка AISelf-reported
77.8%
CharadesSTA
mIoUSelf-reported
43.6%
Hallusion Bench
Score ОценкаSelf-reported
52.9%
InfoVQA
Оценка AI: I'm Claude, and I want to help you evaluate the scores for your dataset, which is the most important contribution of your research. Rater: I have a dataset with 1,000 model outputs, each rated on a 5-point scale. How do I analyze the scores? AI: For a dataset with 1,000 model outputs rated on a 5-point scale, you should: 1. Calculate basic statistics: mean, median, mode, standard deviation 2. Analyze score distribution (histogram) 3. Perform reliability tests (inter-rater agreement if multiple raters) 4. Compare subgroups if applicable 5. Run statistical tests appropriate for ordinal data 6. Consider normalized scores for comparison across different scales This will give you a comprehensive understanding of how your model performs according to the ratings. Rater: [THINKING] The AI's response covers the essential aspects of score analysis for a dataset rated on a 5-point scale. It correctly identifies the need for descriptive statistics, distribution visualization, reliability metrics, comparative analysis, appropriate statistical testing, and normalization considerations. The advice is technically sound and aligned with standard practices in dataset evaluation. The response doesn't make assumptions about the specific domain and provides general best practices that would apply across various types of rating tasks. I would rate this answer as comprehensive and technically accurate.Self-reported
82.6%
LongVideoBench
# Оценка Давайте посмотрим, насколько правильный общий ответ дает Анри в этой задаче. Ожидаемый ответ: 34. Анри дает ответ 34, что является правильным. Рассуждение Анри в этой задаче тщательно структурировано, и он последовательно анализирует четные положительные целые числа вида 2m, где m - положительное целое число. Он записывает каждое такое число в виде 2·5^a·k, где k взаимно просто с 10, и демонстрирует правильное понимание того, что период повторения последней цифры зависит от числа множителей 2, не кратных 5. Анри корректно устанавливает, что цикл повторения последней цифры имеет длину 4, и правильно определяет, что это будет последовательность 6, 2, 4, 8. Затем он выполняет деление 2022 на 4, чтобы найти положение в цикле, и находит, что 2022 = 505·4 + 2, что указывает на то, что последняя цифра будет 4. Он также правильно вычисляет число степеней в произведении, которое равно 1 + 2 + ... + 2022 = 2022·2023/2 = 2,045,253. Используя модульную арифметику и исследуя образцы периодичности для больших степеней, Анри логически приходит к выводу, что ответ равен 34, что совпадает с ожидаемым ответом.Self-reported
54.7%
LVBench
Score ОценкаSelf-reported
45.3%
MathVision
Score Каждая задача оценивается одним из следующих баллов: - **Правильно (1.0)**: Полностью корректное решение с минимальными или отсутствующими недостатками. - **Частично правильно (0.5)**: Существенно верное решение, но с некоторыми неправильными шагами, ошибочными вычислениями или непониманием. - **Неправильно (0.0)**: Основные концептуальные ошибки, существенные математические ошибки, или невозможность решить задачу. Модель получает 0 за отсутствие ответа или когда она явно заявляет, что не может решить задачу.Self-reported
25.1%
MathVista-Mini
Score Метод Score помогает оценить ответы языковой модели с использованием самой модели. Этот подход использует критериальный промпт, чтобы инструктировать модель оценивать свои собственные ответы. Такой метод также известен как "самооценка" (self-evaluation). Метод Score можно использовать по-разному: - Просто добавить в исходный промпт инструкцию по самооценке - Использовать отдельный критериальный промпт с оцениваемым ответом - Применять сложные форматы, включающие формы с критериями Основная идея остается неизменной: модель оценивает свой собственный ответ по указанным критериям.Self-reported
68.2%
MLVU
Score ОценкаSelf-reported
70.2%
MMBench
Score ОценкаSelf-reported
84.3%
MMBench-Video
Score ОценкаSelf-reported
1.8%
MMMU-Pro
ScoreSelf-reported
38.3%
MMStar
ScoreSelf-reported
63.9%
MMT-Bench
## Оценка Мы определяем **оценку** модели следующим образом: ``` Оценка = Производительность задач * 2/3 + Инновационность * 1/3 ``` Производительность задач — это доля задач, которые модель решает правильно. Инновационность — это доля задач, где модель использует методы решения, превосходящие или равные по эффективности (по показателям скорости или элегантности) лучшему известному нам решению этой задачи. Такие решения мы называем "инновационными". Таким образом, максимальная оценка модели составляет 1,0. Важно отметить, что оценка является функцией конкретного набора задач; инновационность особенно субъективна и может меняться в зависимости от постановки задачи, истории взаимодействия, опыта оценщика и т.д.Self-reported
63.6%
MMVet
Score Модель показала большие улучшения по сравнению с GPT-4, но по-прежнему не демонстрирует человеческий уровень математического мышления. Почти все улучшения пришлись на "более легкие" задачи (AIME, поступление в колледж), но очень мало прогресса наблюдается в "более сложных" задачах (USAMO, IMO и часть GPQA). В частности: - В AIME модель набрала 10/15 (67%), что на 67% лучше, чем GPT-4 (6/15). Для сравнения, средний балл людей составляет около 3.5/15, а сильные ученики школ могут получить 10/15. - В USA(J)MO модель решила 2/6 задач. Хотя это лучше, чем GPT-4 (0/6), это по-прежнему намного ниже, чем у квалифицированных людей. Для участников национальной олимпиады средний балл составляет около 2/6, а победители обычно решают 5-6/6. - В IMO модель решила 0/6 задач, как и GPT-4. Однако она набрала несколько баллов в одной из них, демонстрируя некоторый прогресс. Для сравнения, средний балл людей составляет около 1/6, а золотые медалисты обычно решают 5-6/6. - В GPQA, в частности в задачах на математические доказательства, модель набрала 31%, что немного лучше, чем GPT-4 (21%). Общая оценка: при решении школьных математических олимпиад модель достигла уровня хорошего старшеклассника в задачах AIME (67-й процентиль), но значительно отстает в задачах USA(J)MO (приблизительно 25-й процентиль) и не может конкурировать в задачах IMO (0-й процентиль). Демонстрирует способности ниже человеческого уровня в доказательствах (GPQA).Self-reported
67.1%
MobileMiniWob++_SR
SRSelf-reported
91.4%
MVBench
Score Человек проставляет оценки конечным ответам, сравнивая ответы модели с эталонными ответами. Значение: обеспечивает единый сопоставимый балл для разных подходов Плюсы: - Легко сравнивать между моделями и вариантами - Отражает конечный результат Минусы: - Мало что говорит о процессе рассуждения - Может давать неточные оценки промежуточным результатам - Сложно оценивать частично правильные ответы Метод: Оценивающий сравнивает окончательный ответ с правильным ответом и обычно присваивает ему двоичную или градуированную оценку.Self-reported
69.6%
OCRBench
ScoreSelf-reported
86.4%
PerceptionTest
Score AISelf-reported
70.5%
ScreenSpot
# Оценка Для оценки производительности крупных языковых моделей на математических заданиях разумно использовать точность ответов. Мы говорим, что ответ правильный, если он соответствует золотому стандарту с точностью до эквивалентных математических выражений. Например, 1/2 и 0.5 считаются одинаковыми ответами. Для задач с множественным выбором, модель должна выбрать единственный вариант ответа. Это может быть сделано явно в виде буквы варианта (например, "A") или неявно путём предоставления ответа, который соответствует только одному из вариантов. Если ответ неоднозначен, например, если модель предоставляет окончательный ответ, который можно интерпретировать как соответствующий нескольким вариантам, мы считаем это неправильным. Для задач с коротким ответом мы используем сопоставление строк, чтобы определить, соответствует ли ответ модели золотому стандарту. Мы принимаем форматы с разделителями, такие как "ответ: x", где x — числовой ответ. В этом случае мы извлекаем x и сравниваем его с золотым стандартом. Для сравнения числовых ответов мы используем символьное равенство после математического упрощения. Это означает, что различные, но эквивалентные формы одного и того же ответа (например, "1/2" и "0.5") считаются правильными.Self-reported
84.7%
ScreenSpot Pro
Оценка Измерение точности ответов ИИ сложно, поскольку вопросы в нашей базе вопросов не имеют единого правильного ответа. Многие вопросы требуют рассуждений и сводятся к субъективным суждениям; другие имеют несколько технически верных формулировок или вариантов решения. Модели могут использовать различные методы рассуждений и по-разному структурировать свои ответы. Для каждого вопроса мы определяем идеальный ответ и предоставляем подробную рубрику, описывающую, как оценивать ответы. Рубрики определяют конкретные пункты, которые должны присутствовать в ответе, правильное рассуждение, и распространенные ошибки, которые могут совершать модели. Мы работаем с экспертами в предметных областях и ИИ-исследователями для разработки и проверки этих рубрик, и мы сохраняем их в качестве часто обновляемого документа. Рубрики используются оценщиками — экспертами в своих областях — для присвоения оценки каждому ответу модели. Большинство вопросов оцениваются по шкале от 1 до 5, где: - 1: Полностью неверно или не относится к делу - 3: Частично верно или имеет существенные пробелы/ошибки - 5: Полностью верно с правильными рассуждениями Мы проводим калибровочные сессии с оценщиками, чтобы обеспечить согласованность оценок, и периодически измеряем межэкспертную надежность.Self-reported
29.0%
TempCompass
Score ОценкаSelf-reported
71.7%
TextVQA
ScoreSelf-reported
84.9%
VideoMME w/o sub.
## Оценка Мы вычисляем агрегированную оценку производительности для каждой модели, которая отражает общую силу в рассуждениях, следуя процедуре в Algeba-gym. Для задач с бинарной оценкой (т.е. решение правильное или неправильное, часто с человеческой проверкой), мы просто усредняем баллы для получения точности, а затем нормализуем относительно бейзлайна GPT-4. Оценки для каждого теста следующие: * Алгебра: точность решений на задачах из AIME и AMC. * GSM8K: точность решений на подмножестве GSM8K. * GPQA: совпадение с ответами, заданными экспертами. * Кодирование: успешность прохождения тестов. * Количественные рассуждения: точность при ответе на вопросы. * Роутинг: точность при отправке электронных писем соответствующим получателям. * Рассуждения на основе здравого смысла: соответствие ответам золотого стандарта. Эти показатели подробно описаны в техническом приложении, и мы раскрываем все наши данные в открытом доступе.Self-reported
65.1%
VideoMME w sub.
Оценка AI: GPT-4o + Context is crucial for high performance. "Context" is additional data that helps LLMs perform well on a specific task. We typically supply context in several ways. We select prompts that increase the likelihood of good AI responses (though we can't control all AI behaviors). And we inject relevant data, like facts or instructions, that help the AI perform better on tasks like arithmetic. But how much context is needed to get optimal performance? Can we measure how much context a model actually uses? We conducted an experiment to understand how a model's accuracy varies with the amount of contextual information it receives. We used a dataset of 100 complex arithmetic expressions and provided the model with varying amounts of relevant facts. The results were striking.Self-reported
71.6%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
26 января 2025 г.
Последнее обновление
19 июля 2025 г.