Alibaba logo

QvQ-72B-Preview

Мультимодальная
Alibaba

Экспериментальная исследовательская модель, сосредоточенная на продвинутых возможностях визуального рассуждения и пошаговых когнитивных способностях. Демонстрирует высокую производительность в мультимодальных задачах по естественным наукам и математике, хотя имеет некоторые ограничения, такие как потенциальное смешение языков и циклы рекурсивного рассуждения.

Основные характеристики

Параметры
73.4B
Контекст
-
Дата выпуска
25 декабря 2024 г.
Средний балл
49.5%

Временная шкала

Ключевые даты в истории модели
Анонс
25 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
73.4B
Токены обучения
-
Граница знаний
-
Семейство
-
Файн-тюнинг от
qwen2-vl-72b
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Мультимодальность

Работа с изображениями и визуальными данными
MathVista
miniSelf-reported
71.4%
MMMU
Проверка значения (val) Это техника проверки промежуточных шагов в решении, используемая для того, чтобы знать, когда сделаны ошибки и на какие шаги можно полагаться. LLM с исключительной точностью может проверять свои вычисления посредством пересчёта или альтернативных методов. Хорошая проверка вычислений включает: 1. Определение проблемы, которую нужно проверить. 2. Использование пересчёта или альтернативного метода для проверки. 3. Сравнение результатов с исходным решением. 4. Определение расхождений и принятие решения, какой результат верен, при наличии ошибок. 5. Внесение исправлений в решение в соответствии с результатами проверки. Пересчёт особенно полезен, когда это шаг, требующий вычислений. Альтернативные методы используются, когда исходное решение трудно проверить или могут быть более надежными. Проверка значения более ограничена по сравнению с более общими стратегиями, такими как разбор отношений или комбинированная логика, и подходит для конкретных шагов в решении.Self-reported
70.3%

Другие тесты

Специализированные бенчмарки
MathVision
# Доступ к внутренним состояниям в GPT моделях для интерпретируемости и улучшения языкового моделирования ## Авторы Антония Насер (1) Деди Нахшон (2) Майкл Ли (3) Зеви Берман (4) Даниэль Хан (4) Джейкоб Брауниг (1) Эли Фильш (2) Кристиан Симсариан (1) Адам Поляк (1) Прити Пандей (1) Том Браун (1) Марк Ришер (1) Николя Ле Ру (1) Трюнг-Гай Эванс (1) Дэвид Чой (1) (1) Anthropic (2) Technion, Хайфа, Израиль, 3200003 (3) Стэнфордский университет, Стэнфорд, CA 94305, США (4) Калифорнийский университет в Беркли, Беркли, CA 94720, США ## Аннотация Изучение внутренних состояний языковых моделей является ключом к пониманию их поведения, но для этого часто требуется доступ к компонентам архитектуры модели, которые недоступны через интерфейсы API. Мы предлагаем FOCUS, новый метод извлечения внутренних состояний из черных ящиков LLM, работающий только с входами и выходами модели. FOCUS позволяет пользователю измерять любые "признаки" модели, которые можно вычислить как функцию от внутренних состояний нейронов, через элегантный процесс, включающий "полезную нагрузку" в запросы, которая активирует выбранные нейроны, и последующие запросы с "откликами", позволяющие различать нейронные отклики от семантики последовательности токенов. Мы оцениваем FOCUS с моделями Claude 2 и 3, демонстрируя его эффективность на ряде задач, включая распознавание логического следования, различение знаний системы и утверждений пользователя, понимание семантической целостности в вопросах ответа на вопросы, и отслеживание процессов принятия моделью решений по частям. Сравнение с методами базового уровня, включая анализ внимания и перекрестные подходы, демонстрирует, что FOCUS может быть более точным в определенных задачах. Мы также показываем, что основной принцип FOCUS использует склонность трансформеров к прямому копированию, и демонстрируем, что вариант нашего метода может извлекать внутренниеSelf-reported
35.9%
OlympiadBench
Полный отчет о тестировании включает вывод каждого отдельного запроса, результаты каждой субзадачи или теста и полученный окончательный балл для каждой задачи, набора задач и общий балл. Отчет также включает время выполнения и использованные вычислительные ресурсы. Это наиболее подробная форма отчета, которая содержит как можно больше информации о производительности модели. Она полезна при подробном анализе и особенно важна при сравнении производительности с другими моделями.Self-reported
20.4%

Лицензия и метаданные

Лицензия
qwen
Дата анонса
25 декабря 2024 г.
Последнее обновление
19 июля 2025 г.