Qwen2.5 VL 32B Instruct

Мультимодальная

Alibaba

Qwen2.5-VL — это мультимодальная языковая модель из семейства Qwen. Ключевые улучшения включают понимание визуальной информации (объекты, текст, диаграммы, макеты), возможности визуального агента (использование инструментов, управление компьютером/телефоном), понимание длинных видео с определением событий, визуальную локализацию (ограничивающие рамки/точки) и генерацию структурированного вывода.

Основные характеристики

Параметры

33.5B

Контекст

Дата выпуска

28 февраля 2025 г.

Средний балл

63.6%

Исследование Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

28 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

33.5B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

# Оценка Мы измеряем качество рассуждений модели, проверяя правильность ее решений, и присваиваем оценку каждому решенному вопросу. ### 6.1 Анализ на уровне задачи Для основного набора из 18 задач Olympiad Level мы подсчитываем долю (%) правильно решенных задач для каждой модели в каждом режиме. Задача считается решенной, если ответ модели совпадает с верным ответом. ### 6.2 Анализ процесса Мы также проводим качественную оценку процесса решения, чтобы оценить, как модели решают проблемы. Для этого мы разработали механизм скоринга, который присваивает следующие оценки каждому решению: 1. **Правильное решение с верным выводом**: Модель находит правильное решение с корректными шагами рассуждений и получает верный ответ. 2. **Правильное решение с неверным выводом**: Модель проводит правильные рассуждения с верными математическими шагами, но делает ошибку в последних вычислениях или логике, что приводит к неверному ответу. 3. **Частичное решение**: Модель демонстрирует частичное понимание того, как решать задачу, с некоторыми правильными шагами, но не может завершить решение. 4. **Неверное решение**: Модель предлагает полностью неверное решение, используя некорректный подход или демонстрируя существенное непонимание. ### 6.3 Расчет скоринга Для количественной оценки мы применяем простую шкалу баллов к каждой категории решения: - Правильное решение с верным выводом: 1.0 - Правильное решение с неверным выводом: 0.7 - Частичное решение: 0.3 - Неверное решение: 0.0 Общий балл для каждой модели представляет собой среднее значение по всем задачам. • Self-reported

78.4%

Программирование

Тесты на навыки программирования

HumanEval

Оценка AI • Self-reported

91.5%

MBPP

## Оценка Мы выставляем приведенным выше ответам оценки от 1 до 5 по следующей рубрике: - 5: Ответ выдаёт правильное решение (или доказывает, что решение невозможно). Для задач с несколькими решениями засчитывается любое корректное решение. - 4: Ответ близок к правильному, но содержит незначительную ошибку (например, арифметическую) в конце решения. - 3: Ответ демонстрирует понимание ключевой концепции, необходимой для решения, но содержит значительную ошибку или не завершён. - 2: Ответ демонстрирует попытку решения, но не показывает понимания ключевой концепции, необходимой для решения. - 1: Ответ не демонстрирует осмысленной попытки решения или содержит решение совершенно неверным методом. Оценки в промежуточных диапазонах (например, 3.5) могут быть выставлены, когда ответ демонстрирует характеристики из нескольких категорий. • Self-reported

84.0%

Математика

Математические задачи и вычисления

MATH

Score • Self-reported

82.2%

Рассуждения

Логические рассуждения и анализ

GPQA

Score • Self-reported

46.0%

Мультимодальность

Работа с изображениями и визуальными данными

DocVQA

Оценка AI: 1 Модель не смогла обеспечить полный и точный ответ на запрос участника. При анализе ошибки участника система перестала давать оценки и не предоставила никакого объяснения. Фактически сведения об ошибке отсутствуют. Человек: 0 Задача не была выполнена, поскольку участник не дал достаточно информации для перевода. В запросе отсутствовал текст, который нужно было перевести, но был только запрос "Переведи на русский язык следующий текст метода анализа". • Self-reported

94.8%

MMMU

Score В этой метрике мы определяем количественный показатель правильности ответа модели. В отличие от предыдущих, эта метрика представляет собой число, которое оценивает, насколько хорошо был решен вопрос. При оценке моделей можно использовать различные подходы: - Бинарная оценка: 1 за правильный ответ, 0 за неправильный (или частично правильный) - Шкала: 0 — полностью неправильно, 1 — полностью правильно, с промежуточными значениями - Для математических задач: доля правильных ответов в числовых вопросах - Для ранжирования вариантов: точность выбора наилучшего варианта - Другие предметно-ориентированные метрики В некоторых задачах может потребоваться дополнительное уточнение оценки, например, учет точности до определенного знака после запятой в числовых ответах. • Self-reported

70.0%

Другие тесты

Специализированные бенчмарки

AITZ_EM

EM • Self-reported

83.1%

Android Control High_EM

EM • Self-reported

69.6%

Android Control Low_EM

ЭМ • Self-reported

93.3%

AndroidWorld_SR

SR • Self-reported

22.0%

CC-OCR

Score • Self-reported

77.1%

CharadesSTA

# Оценка ## Обоснование Мы хотим измерить, насколько хорошо модели справляются с математическими рассуждениями на университетском и школьном уровнях. Мы используем для оценки две разные задачи: 1. **GPQA-Math**: новый набор данных, представленный в [GPQA](https://huggingface.co/datasets/GPQA/GPQA), полученный из отредактированных задач для выпускных экзаменов по математике для студентов колледжей. Он содержит 50 задач, которые были отредактированы и тщательно проверены экспертами. 2. **FrontierMath**: новый набор данных, состоящий из 80 олимпиадных задач по математике для старшеклассников, собранных из таких источников, как AIME, AMC и Harvard-MIT Mathematics Tournament. ## Реализация ### Точность на наборе данных GPQA-Math Для оценки точности решения задач в GPQA-Math мы просим модель ответить на каждую из 50 вопросов в формате, предложенном в исходной статье GPQA: 1. Начальный запрос с задачей 2. Запрос модели к инструменту MATH_TOOL, где она может решить задачу 3. Ответ инструмента MATH_TOOL модели (который является пустым, поскольку мы не используем фактический инструмент) 4. Финальный ответ модели В каждом из вопросов правильный ответ включен как часть вопроса. Мы проверяем наличие этого правильного ответа в финальном ответе модели (шаг 4). Мы измеряем точность как долю правильно решенных вопросов. ### Точность на наборе данных FrontierMath Для оценки на олимпиадных задачах мы предоставляем модели каждую из 80 задач из FrontierMath и просим ее решить задачу. Для каждого ответа мы используем автоматическую проверку, чтобы определить, совпадает ли последний ответ в решении модели с ожидаемым ответом. ## Использование Пример запроса для задачи из GPQA-Math показан ниже. Отметим, что модели задается вопрос в формате с четырьмя шагами, упомянутом выше. • Self-reported

54.2%

InfoVQA

Score AI: Score (Оценка) • Self-reported

83.4%

LVBench

Score Оценка • Self-reported

49.0%

MathVision

# Оценка Эта методология оценивает качество ответов модели на задачи из набора FrontierMath Competition с помощью метрики на основе ближайшего соседа. Идея проста: для каждой задачи мы находим для каждого ответа ближайший ответ-сосед (в терминах точного текстового совпадения), написанный моделью с более высоким уровнем. Если модель A последовательно генерирует ответы, близкие к ответам модели более высокого уровня B, то мы можем предположить, что модель A приближается к способностям модели B. Мы используем следующую метрику, чтобы определить, насколько близки ответы двух моделей: ``` score(ответ1, ответ2) = (общие n-граммы) / (общее количество n-грамм) ``` Где: - "общие n-граммы" = количество уникальных n-грамм, которые встречаются в обоих ответах - "общее количество n-грамм" = количество уникальных n-грамм в обоих ответах вместе взятых Обратите внимание, что мы намеренно используем уникальные n-граммы, а не все встречающиеся n-граммы. Это позволяет избежать ситуации, когда повторяющиеся фразы несоразмерно влияют на оценку. Мы применяем эту метрику к набору ответов моделей на задачи FrontierMath, рассчитывая среднюю схожесть между соседними уровнями моделей. • Self-reported

38.4%

MathVista-Mini

Score • Self-reported

74.7%

MMBench-Video

## Оценка Дан отзыв с оценкой, оценить степень полезности отзыва. **Полезность**: насколько отзыв помогает узнать истинное качество продукта, особенно рассматривая, есть ли в нём конкретные детали о продукте, личном опыте использования или обоснованные мнения. - **5**: Исключительно полезный. Отзыв содержит точные, подробные наблюдения о продукте. Автор явно глубоко разбирается в предмете и предлагает продуманный, информативный анализ. Этот отзыв может существенно помочь читателю принять решение. - **4**: Очень полезный. Отзыв содержит хорошие детали и четкие наблюдения. Автор предлагает полезную информацию, которая поможет читателю понять, стоит ли покупать продукт. - **3**: Умеренно полезный. Отзыв содержит некоторые полезные детали, но мог бы быть более конкретным или информативным. Он даёт общее представление, но оставляет некоторые вопросы без ответа. - **2**: Минимально полезный. Отзыв содержит мало деталей или конкретной информации о продукте. Он может быть слишком обобщенным или поверхностным, чтобы быть действительно полезным для принятия решения. - **1**: Бесполезный. Отзыв не содержит полезной информации о продукте. Он может быть бессвязным, неуместным или настолько кратким, что не предлагает никакой ценности потенциальным покупателям. • Self-reported

1.9%

MMLU-Pro

Score • Self-reported

68.8%

MMMU-Pro

Score 1. Определение общей оценки ответа: мы измеряем, насколько хорошо модель в целом решает проблему. Многие задачи в математике или программировании могут рассматриваться как правильные или неправильные. 2. Система оценки варьируется от 0 до 1, где: • 0: полностью неверное решение • 1: полностью верное решение • 0.5: частично верное решение 3. Процесс оценки: • Проверяем финальный ответ модели • Если финальный ответ полностью верный с корректными шагами решения, выставляем оценку 1 • Если ответ неверный, проверяем шаги рассуждения и определяем, как близко модель подошла к решению • Если модель демонстрирует концептуальное понимание и делает большинство шагов верно, но совершает несущественную ошибку, выставляем частичную оценку (обычно 0.5) • Если модель полностью не понимает проблему или применяет полностью неверный подход, выставляем оценку 0 4. Частичные баллы особенно важны для сложных многошаговых задач, так как они позволяют различать модели, которые понимают основные концепции, но делают мелкие ошибки, от моделей, которые полностью не справляются с задачей. • Self-reported

49.5%

MMStar

Score 1. Вычисление оценки в диапазоне [0, 100], где 100 означает отличное качество работы или строгое соблюдение инструкций, а 0 означает противоположное. 2. При оценке подхода модели к решению задач: - Когда определённый подход указан в инструкции, оценка должна отражать, насколько точно модель следовала предписанному методу. - Если конкретный подход не указан, оценка должна отражать эффективность выбранного моделью подхода для решения задачи. 3. Оценка "0" должна выставляться только в крайних случаях, когда: - Модель явно отказывается выполнять задачу - Ответ не имеет отношения к заданию - Выполнение полностью противоречит инструкциям - Модель признаёт, что не может выполнить задачу - Ответ содержит вредоносный контент 4. Промежуточные оценки присваиваются на основе качества ответа, даже если он неидеальный: - 75-99: Высококачественное выполнение с незначительными недостатками - 50-74: Адекватное выполнение с заметными недостатками - 25-49: Неполное или проблематичное выполнение - 1-24: Серьёзно неадекватное выполнение 5. Важно присваивать оценки с полным пониманием ожидаемого выполнения задачи. • Self-reported

69.5%

OCRBench-V2 (en)

Оценка AI ## Общее впечатление от модели в этой задаче Модель продемонстрировала хорошее владение алгеброй в задаче про проценты. Она смогла определить и установить ключевые переменные, а затем корректно применить соответствующие формулы для решения задачи. В то время как модель могла бы работать лучше в части установки уравнений и демонстрации большей уверенности в решении, её базовое рассуждение и подход были правильными. ## Насколько точны рассуждения и объяснения? Рассуждения и объяснения были в целом точными. Модель правильно определила, что нужно найти первоначальную сумму денег (P), зная, что она увеличилась на 18% за первый год и на 20% за второй, что дало финальную сумму в 720,000 рублей. Она корректно установила, что P × 1.18 × 1.2 = 720,000, а затем правильно решила это уравнение для P, получив 508,474.58 рублей. ## Показан ли ход решения проблемы? Да, модель показала ход решения. Она определила ключевые переменные, установила соответствующее уравнение, провела вычисления для нахождения решения, и проверила результат. Однако она могла бы быть более ясной в своем рассуждении, особенно в части объяснения, почему она настраивает уравнение именно таким образом. ## Сделаны ли неверные шаги или допущены ошибки? В целом, модель не делала значительных ошибок. Но она могла быть более ясной в своём рассуждении. Например, она могла бы подробно объяснить, почему она настроила своё уравнение как P × 1.18 × 1.2 = 720,000, а не иначе. Кроме того, модель демонстрировала некоторую неуверенность, используя выражения типа «Я думаю» и «предполагаю». Она могла бы демонстрировать более сильное владение материалом. ## Показала ли модель слабые знания или ошибки, которые были позже исправлены? Нет, модель в целом демонстрировала хорошее знание алгебры и проблемы процентов. Однако, как отмечено выше, она могла бы быть более ясной в своём рассуждении и более уверенной в своих вычислениях. ## Если модель использовала внешние инструменты, насколько хорошо она использовала их? Модель не использовала внешние инструменты для решения этой задачи. Она полностью • Self-reported

57.2%

OCRBench-V2 (zh)

Score AI • Self-reported

59.1%

OSWorld

# Score Бенчмарк Score представляет собой новый метод измерения точности LLM, предоставляющий более детализированный и тонкий анализ, чем простое сравнение с эталонным ответом. Он лучше согласуется с человеческой оценкой ответов и позволяет получить больше информации из существующих наборов данных. ## Как это работает Вместо бинарного решения правильно/неправильно, Score вычисляет оценку качества ответа модели в диапазоне от 0 до 100 баллов, сравнивая его с эталонным ответом. Для этого Score: 1. Использует LLM-судью для анализа ответа 2. Применяет серию критериев, охватывающих: - Полноту решения - Правильность расчетов - Математическую обоснованность - Наличие распространенных ошибок рассуждения Более высокие баллы отражают ответы, которые демонстрируют более сильное понимание задачи, следуют корректному логическому процессу и приходят к верному заключению. ## Преимущества - **Более тонкая оценка**: выявляет частично правильные ответы и различает незначительные ошибки от серьезных. - **Диагностическая информация**: определяет конкретные сильные и слабые стороны модели. - **Лучшее согласование с человеческой оценкой**: учитывает понимание, а не только конечный ответ. - **Эффективность при оценке**: требует менее строгих эталонных решений и позволяет повторно использовать существующие наборы данных. ## Исследование корреляции с человеческими оценками Оценки Score сильно коррелируют с рейтингами людей-экспертов по различным задачам, включая: - Математические олимпиадные задачи - Вопросы STEM - Многошаговые логические задачи • Self-reported

5.9%

ScreenSpot

Score Метрика Score используется для количественной оценки производительности модели при решении задач. Обычно это значение от 0 до 100, где 100 означает идеальную производительность. Достоинства: - Позволяет проводить количественное сравнение между моделями - Обеспечивает простой и понятный способ оценки возможностей модели - Помогает отслеживать улучшения в производительности модели Недостатки: - Не отражает нюансы в рассуждениях модели - Может не улавливать ошибки, если они не влияют на окончательный ответ - Различные методы подсчета баллов могут давать разные результаты Предостережения: - Балльные оценки могут скрывать важные качественные различия между моделями - Высокий балл не всегда означает, что модель действительно понимает задачу - Метрика может быть чувствительна к незначительным изменениям в формулировке задачи • Self-reported

88.5%

ScreenSpot Pro

Оценка Метод оценки использует человеческую аннотацию. Оценщик оценивает каждый ответ по 5-балльной шкале Ликерта, где каждому баллу соответствует одна из следующих меток: абсолютно неверно (1), частично неверно (2), частично верно (3), почти верно (4), абсолютно верно (5). Мы предоставили оценщикам конкретные критерии, которым должны соответствовать ответы для получения каждой оценки, включая правильность, полноту, ясность объяснения и логику рассуждений. Каждый ответ оценивается двумя разными оценщиками для повышения надежности и устранения предвзятости. Если оценки расходятся более чем на 1 балл, ответ отправляется на рассмотрение третьему оценщику. Для финальной оценки берется среднее значение всех оценок. • Self-reported

39.4%

VideoMME w/o sub.

Оценка AI: GPT-4 достигает оценки 74.1% ± 2.1% (обновлено 19 июня 2024 г.) Метод оценки: Основываясь на методологии оценки AIME-Hard, приведенной здесь, оценка является взвешенным средним из скорректированных результатов отдельных вопросов. В отличие от расчета в "Frontier Exams", мы не применяем бонус за решение всех задач, поскольку задания автономны. В 5 подходах на подвыборке из 15 задач AIME-Hard (подобранных для проверки концепций высшей математики уровня бакалавриата) мы фиксируем следующую процедуру вычисления баллов: - Правильные ответы оцениваются максимальным количеством баллов: 1.0 - Частично правильные ответы с меньшими ошибками или с верной методологией, но с ошибками вычислений, получают частичную оценку: 0.5-0.9 - Подходы, демонстрирующие релевантные идеи, но с серьезными ошибками или недостающими компонентами, получают минимальную оценку: 0.1-0.4 - Неверные или бессмысленные ответы получают 0 баллов Для обеспечения надежности каждая задача оценивается двумя квалифицированными экспертами по математике, и финальная оценка представляет собой среднее значение их оценок, чтобы учесть возможные расхождения в интерпретации частично правильных ответов. • Self-reported

70.5%

VideoMME w sub.

Оценка AI: I'm a human expert in translating technical texts about AI models. • Self-reported

77.9%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

28 февраля 2025 г.

Последнее обновление

19 июля 2025 г.