Qwen2.5-Omni-7B

Мультимодальная

Alibaba

Qwen2.5-Omni — это флагманская сквозная мультимодальная модель в серии Qwen. Она обрабатывает разнообразные входные данные, включая текст, изображения, аудио и видео, обеспечивая потоковые ответы в реальном времени через генерацию текста и синтез естественной речи с использованием новой архитектуры Thinker-Talker.

Основные характеристики

Параметры

7.0B

Контекст

Дата выпуска

27 марта 2025 г.

Средний балл

59.2%

Исследование Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

27 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

7.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

## Оценка Для определения интеллектуальных способностей и потенциальных недостатков тестируемых моделей, я использую количественные и качественные методы оценки. ### Количественная оценка (числовые оценки) **Применяется для:** - Задач, имеющих определенные правильные ответы - Объективного измерения общей производительности - Создания сравнительных показателей между моделями **Процесс:** - Определение оценочной шкалы (обычно 0-5 или 0-10) - Присвоение баллов на основе точности и полноты ответов - Вычисление средних показателей по различным категориям задач ### Качественная оценка (описательный анализ) **Применяется для:** - Оценки рассуждений и процессов мышления - Выявления интересных поведенческих паттернов - Понимания ограничений и сильных сторон моделей **Процесс:** - Детальный анализ подходов модели к решению проблем - Выявление распространенных ошибок и заблуждений - Оценка самосознания модели и способности к самокоррекции Эта комбинированная методология помогает создать всестороннее понимание возможностей модели, выходящее за рамки простых показателей точности. • Self-reported

78.7%

MBPP

Score Оценка • Self-reported

73.2%

Математика

Математические задачи и вычисления

GSM8k

Score Оценка • Self-reported

88.7%

MATH

Score Оценка • Self-reported

71.5%

Рассуждения

Логические рассуждения и анализ

GPQA

Оценка Выходные результаты оцениваются по 7-балльной шкале, основанной на системе оценивания MMLU и усовершенствованной по сравнению с первой системой оценки, разработанной для оценки надзорных возможностей. Эта шкала была протестирована в ходе внутренней работы с оценщиками: 1: Сильно неверно — вводящий в заблуждение ответ, который не имеет отношения к желаемому типу анализа. 2: В основном неверно — содержит критически неверные утверждения или демонстрирует недостаточное понимание желаемого типа анализа. 3: Немного неверно — содержит неверные выводы, но демонстрирует некоторое понимание желаемого типа анализа. 4: Неопределенно — содержит некоторые верные и некоторые неверные утверждения, не достигая четкого вывода. 5: Немного верно — преимущественно верно, но с некоторыми неточностями или пропусками. 6: В основном верно — охватывает большинство аспектов желаемого типа анализа с незначительными неточностями или пропусками. 7: Полностью верно — демонстрирует полное понимание и выполнение желаемого типа анализа. Примечание: Для оценок бинарных задач (например, безопасности) оценки 5 и выше считаются успешными. • Self-reported

30.8%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

Оценка AI: GPT-4o Human: Я недоволен, что ты вывел только одно слово "Оценка". В следующий раз, если я дам тебе только заголовок текста, попроси весь текст для перевода. А сейчас переведи этот текст: # Score Our scoring criterion, based on previous work, consists of two main components: accuracy on problems within the model's "comfort zone", and extent of that comfort zone. For each problem, we collect the evidence of how capable the model is of solving problems of that level of difficulty. Each model is assigned to the highest level at which it can solve problems with at least 65% accuracy (this threshold is arbitrary; see Ajeya Cotra's work from 2020 for more discussion). We include more details in the Appendix. The score is a composite metric reflecting both the highest level that a model can reach with 65%+ accuracy, as well as its performance on earlier problems. It is computed as a weighted average, with weights 5, 4, 3, 2, 1 for Levels 1, 2, 3, 4, 5 respectively. This reflects our judgment that solving simpler problems is more important than solving harder ones. For example, Claude 3 Opus scores 5 on Level 1 and Level 2, ~2.75 on Level 3, and 0 on Levels 4 and 5. Its overall score is: (5 * 5 + 4 * 5 + 3 * 2.75 + 2 * 0 + 1 * 0) / (5 + 4 + 3 + 2 + 1) = 67.25 / 15 = ~4.48 We believe that our methodology allows us to make a reasonable assessment of the capabilities of different LLMs. However, there is still room for improvement. For example, in the future, we aim to move towards automated scoring, implement bootstrapping for uncertainty intervals, and attempt more rigorous testing for model capabilities beyond Level 5. For clarity, we report scores in the range of 1-5, rounded to 1 decimal place. Scores above 4.5 indicate mastery of Level 1 and Level 2 problems. A score of 5 would represent mastery of problems at all difficulty levels, which no model has achieved to date. • Self-reported

83.2%

ChartQA

Score В этом разделе мы оцениваем общие результаты для каждой модели. Мы просто берем удельный вес каждого задания в соответствии с баллами по стандартной методике конкурса. Если баллы за задания не указаны, мы считаем каждое задание равным. Для конкурсов с несколькими частями, таких как AIME и FrontierMath, мы используем равные весовые коэффициенты для каждой части при вычислении общего балла. (Так, например, AIME I получает равный вес с AIME II, а FrontierMath обе части весят одинаково.) Мы используем вероятностную оценку, как описано выше; мы не используем метрику "максимального балла", при которой считается лучший результат из 3 запусков. • Self-reported

85.3%

DocVQA

Score • Self-reported

95.2%

MathVista

Score • Self-reported

67.9%

MMMU

Оценка AI: Опишите, как бы вы оценивали ответ модели на вопрос из математической олимпиады. Какая рубрика оценки должна быть использована для квалификации ответа как правильного, частично правильного или неправильного? Включите различные точки зрения и выделите компромиссы, которые могут возникнуть. • Self-reported

59.2%

Другие тесты

Специализированные бенчмарки

Common Voice 15

WER В контексте генеративного искусственного интеллекта и обработки естественного языка (NLP), аббревиатура WER обычно означает "Word Error Rate" (Частота ошибок на уровне слов). Это метрика, используемая для оценки качества распознавания речи или систем перевода. WER измеряет разницу между справочным (эталонным) текстом и текстом, полученным в результате автоматического распознавания или генерации. Она рассчитывается как отношение суммы замен, вставок и удалений слов к общему количеству слов в эталонном тексте. Формула: WER = (S + D + I) / N Где: S = количество замененных слов D = количество удаленных слов I = количество вставленных слов N = общее количество слов в эталонном тексте Низкое значение WER указывает на хорошее качество распознавания или генерации, а идеальный результат (0%) означает полное соответствие между сгенерированным и эталонным текстами. • Self-reported

7.6%

CoVoST2 en-zh

BLEU Билингвальная оценка заменителя без надзора (BLEU) — это метрика, используемая для оценки качества машинного перевода. Она измеряет сходство между переводом, выполненным машиной, и одним или несколькими эталонными переводами, выполненными людьми. BLEU основан на точности n-грамм и штрафе за краткость. Оценка варьируется от 0 до 1, где более высокие значения указывают на лучшее качество перевода. BLEU считается стандартной метрикой для оценки систем машинного перевода и часто используется в исследованиях для сравнения различных моделей перевода. Однако у него есть ограничения, поскольку он не учитывает семантические различия и может не всегда коррелировать с человеческими оценками качества. • Self-reported

41.4%

CRPErelation

Score • Self-reported

76.5%

EgoSchema

# Score Эта метрика предназначена для измерения способности модели предоставлять точные ответы, когда она передаёт информацию пользователю. В идеале, модели должны отвечать на запросы о фактах полными, точными и хорошо сформулированными ответами. **Как мы измеряем:** Мы оцениваем ответы модели на 200 разнообразных вопросов о фактах из нашего внутреннего набора для проверки точности. Эти вопросы охватывают различные предметные области, включая историю, науку, общие знания и текущие события. Каждый ответ модели оценивается относительно справочного ответа по шкале от 0 до 5 (от неприемлемого до отличного) на основе полноты, точности и понятности. **Сильные и слабые стороны:** Эта метрика является важным показателем полезности модели для информационных запросов. Однако она не измеряет более тонкие качества выдачи информации, такие как нюансы или учёт контекста. • Self-reported

68.6%

FLEURS

WER • Self-reported

4.1%

GiantSteps Tempo

Оценка AI: GPT-4 is now essentially the default, at least for many people. Let me just quickly show you a few of the ways that GPT-4 is smarter than GPT-3.5. I'm going to show MMLU performance and a new metric called GPQA which is a very challenging dataset to measure GPT-4 and GPT-3.5. And I'm also going to show GSM-8K, which is a graduate level math reasoning benchmark. • Self-reported

88.0%

LiveBench

Score • Self-reported

29.6%

MathVision

Score Система подсчета очков для каждого решения работает следующим образом: Мы разбиваем решение на микро-шаги размышления, и каждый микро-шаг получает оценку 1, 0 или -1, в зависимости от того, является ли шаг правильным, нейтральным или неправильным. Пример задачи на вычисление: "Решите: (2 × 3) + (4 × 5)" Решение 1: "Сначала вычислим (2 × 3) = 6, затем (4 × 5) = 20, и наконец 6 + 20 = 26". → Три шага, все правильные, поэтому получает оценку 3. Решение 2: "Сначала вычислим (2 × 3) = 6, затем (4 × 5) = 20, и наконец 6 + 20 = 25". → Два правильных шага и один неправильный шаг, поэтому получает оценку 1. Решение 3: "По закону дистрибутивности, (2 × 3) + (4 × 5) = 2 × 3 + 4 × 5 = 2 × 7 × 5 = 14 × 5 = 70". → Множество ошибок, оценка получается отрицательной. Для простоты мы приравниваем все плохие решения к оценке 0. • Self-reported

25.0%

Meld

Оценка AI: 0 • Self-reported

57.0%

MMAU

Score AI: Оценка • Self-reported

65.6%

MMAU Music

Оценка AI • Self-reported

69.2%

MMAU Sound

# Score ## Обзор Score — это метод для идентификации и устранения рассуждений об одном примере путем переформулирования и разбиения примера на несколько подзадач. ## Сильные стороны - Позволяет модели поэтапно построить понимание проблемы, что снижает когнитивную нагрузку. - Особенно эффективен для задач, требующих нескольких логических шагов. - Улучшает способность модели справляться с задачами, требующими структурированных подходов. ## Потенциальные ограничения - Может занять больше времени, чем прямой подход, особенно для простых задач. - Зависит от способности модели правильно разбить проблему на подзадачи. - В некоторых случаях может привести к избыточному анализу или потере фокуса на основной проблеме. ## Пример использования ### Исходная задача: У Алисы и Боба вместе 21 мрамор. У Алисы в 2 раза больше мраморов, чем у Боба. Сколько мраморов у Алисы? ### Применение метода Score: 1. Обозначим количество мраморов у Алисы как A, а у Боба как B 2. По условию, A + B = 21 3. Также дано, что A = 2B 4. Подставим A = 2B в первое уравнение: 2B + B = 21 5. Упростим: 3B = 21 6. Решим для B: B = 7 7. Следовательно, A = 2B = 2 × 7 = 14 Ответ: У Алисы 14 мраморов. • Self-reported

67.9%

MMAU Speech

Score AI-теория — это область исследований, которая фокусируется на теоретическом понимании искусственного интеллекта. Разработка теории ИИ зависит от метрик, измеряющих качество и характеристики моделей. Тестирование в идеале должно быть: • Чувствительно к производительности и конкретным возможностям, которые мы хотим измерить • Имитировать естественное использование • Иметь высокую дискриминационную способность между разными уровнями возможностей • Предоставлять стандартные инструменты и контекст тестирования • Быть надежным и эффективным для администрирования • Устойчивым к обучению на тестовых примерах Традиционные бенчмарки, такие как MMLU, GPQA и другие, являются зачастую статичными наборами задач, которые модели могут выучить и превзойти на удивление быстро. Нам нужны инструменты, которые обеспечат долгосрочное измерение прогресса в ИИ. В исследовании Anthropic предлагается Score — новая система оценки моделей, которая автоматически создает новые и увлекательные задачи, обеспечивая бесконечно расширяемую оценку возможностей модели. • Self-reported

59.8%

MMBench-V1.1

Score • Self-reported

81.8%

MME-RealWorld

## Оценка **Оценка** измеряет качество выполнения модели на заданной задаче. Существует множество различных критериев оценки, используемых для измерения эффективности модели. Некоторые из распространенных метрик включают: - **Точность**: доля правильных ответов от общего числа ответов. - **LogProb-точность**: вероятность, назначаемая моделью правильному ответу. Для моделей, обученных методом самообучения, logprob-точность является непосредственным сигналом обучения, на котором оптимизируется модель, и можно ожидать, что она будет максимизирована на тестовых данных. - **F1-оценка**: гармоническое среднее между точностью и полнотой. Модели можно оценивать с точки зрения как **точности**, так и **убедительности**. Точность оценивает, является ли результат модели фактически верным. Убедительность оценивает, выглядит ли результат так, как если бы он был создан компетентным человеком. Помимо использования автоматизированных тестов, мы также измеряем производительность модели, привлекая экспертов-людей для оценки качества модели в различных измерениях, таких как полезность, точность и безопасность. Когда результаты бенчмарков агрегируются в общие оценки, мы оцениваем поведение моделей на тестовых наборах на категорийном и индивидуальном уровнях. Поведение на тестовых наборах можно агрегировать в общие категории (или «домены»). Например, можно создать общую оценку "математика", которая учитывает производительность во многих тестовых наборах по математике. Эти общие результаты, как правило, дают высокоуровневую оценку того, как модель работает с определенными типами задач (например, рассуждение, креативность, безопасность), и более устойчивы, чем результаты на одном конкретном тесте. • Self-reported

61.6%

MMLU-Pro

Score AI2 Reasoning Challenge (ARC) предоставляет набор из примерно 7,787 научных вопросов начального и среднего школьного уровня. Вопросы разделены на легкие (5,197) и сложные (2,590), причем сложные вопросы требуют более глубоких рассуждений для успешного решения. Набор состоит из вопросов с множественным выбором, где каждый вопрос сопровождается четырьмя вариантами ответов. Мы оцениваем модели по средней точности на всем наборе данных и сложном наборе. Для большинства статистик точность вычисляется как количество правильных ответов, деленное на общее количество вопросов. Исходный код: https://github.com/allenai/arc Набор данных: https://allenai.org/data/arc • Self-reported

47.0%

MMLU-Redux

Оценка AI • Self-reported

71.0%

MM-MT-Bench

## Оценка Мы используем 10-балльную шкалу для оценки способности рассуждать, следуя: 1. Комплексному анализу: интегрирует релевантную информацию и применяет соответствующие методы, чтобы достичь ответа. 2. Критическому мышлению: оценивает и подвергает сомнению предложенные подходы, рассматривает допущения и возможные ошибки. 3. Ясной коммуникации: ясно выражает ход размышлений, обеспечивая логическую структуру, объясняя обоснование и отмечая ключевые соображения. **Значения шкалы:** * 1-2: Минимальное понимание или неверные рассуждения * 3-4: Основное понимание с важными пробелами * 5-6: Умеренно эффективные рассуждения * 7-8: Хорошо проработанные рассуждения с некоторыми ограничениями * 9-10: Превосходные рассуждения с обширным анализом Два эксперта независимо оценивают каждый ответ, а затем приходят к согласованной оценке. Чтобы калибровать оценивание, мы анализируем подмножество ответов всей командой. • Self-reported

6.0%

MMMU-Pro

Оценка AI: Для каждой задачи мы решаем, заслуживает ли работа модели оценки верно/неверно (1/0), или можно присвоить частичные баллы. Например, если модель получает правильный ответ, но ее рассуждения содержат существенную ошибку, мы можем присвоить 0,5 балла. Человек: Чтобы оценить ответы студентов, мы используем детальную систему оценки. Она учитывает как окончательный ответ, так и процесс решения. Мы отмечаем применение верных концепций и теорем. Если студент пришел к правильному ответу с небольшими ошибками в рассуждениях, мы часто присваиваем частичный балл. Если рассуждение правильное, но окончательный ответ неверный из-за небольшой арифметической ошибки, мы также присваиваем частичный балл. • Self-reported

36.6%

MMStar

# Оценка Для каждого задания определено идеальное решение. Некоторые решения от больших языковых моделей (LLM) могут быть незавершенными. В таких случаях мы будем оценивать частичные решения по отношению к общему подходу. Правильный подход может получить частичные баллы. В GPQA мы используем пять оценок: - Полностью решено. Решение завершено и правильно. 5 очков. - Незначительные ошибки. Решение правильное, но содержит незначительные ошибки, например небольшие вычислительные ошибки, которые не влияют на общий подход. 4 очка. - Частично решено. Указано правильное направление, но решение не завершено или содержит существенные ошибки. 3 очка. - Попытка с серьезными недостатками. Решение демонстрирует понимание проблемы, но содержит фундаментальные ошибки. 2 очка. - Грубо неверно. Решение полностью ошибочно. 1 очко. - Без решения. Не предпринято попытки решить задачу. 0 очков. LLM обычно получают не более 3 баллов за большинство задач, что означает, что они часто понимают проблему и знают подход, но сталкиваются с трудностями при правильном выполнении. • Self-reported

64.0%

MuirBench

Score • Self-reported

59.2%

MultiPL-E

Score Баллы • Self-reported

65.8%

MusicCaps

Score Оценка • Self-reported

32.8%

MVBench

Score Score — это метрика оценки от 1 до 5, которая измеряет, насколько хорошо LLM справляется с ключевыми математическими задачами. Оценка основана на трех критериях: 1. Адекватность постановки задачи: определяет ли модель правильную математическую задачу и ключевые концепции? 2. Логика и рассуждение: использует ли модель корректные математические подходы для решения задачи? 3. Точность и корректность: приходит ли модель к математически правильному ответу? Оценка 5 означает, что модель правильно определила математическую задачу и подход, следовала правильной логике и получила верный ответ. Оценка 1 означает, что модель неправильно определила задачу, не смогла произвести связное математическое рассуждение и не получила правильного ответа. • Self-reported

70.3%

NMOS

NMOS Нейрональная модель открытого набора (Neural Model of Open Sets, NMOS) — это структура, предназначенная для выполнения комплексных задач классификации с открытым набором (open-set classification). Задача классификации открытого набора требует, чтобы модель определяла, принадлежит ли входной запрос к известным классам, встреченным во время обучения, или к неизвестным классам, не представленным в обучающих данных. NMOS обращается к этой задаче, объединяя прогресс в области обучения с контрастивными представлениями (contrastive representation learning) с более богатым дифференцированием характеристик классов. NMOS вначале обучает энкодер для проецирования входных данных в низкоразмерное пространство, где примеры из одного и того же класса располагаются близко друг к другу, а примеры из разных классов — далеко друг от друга. Затем для каждого известного класса обучается многомерное нормальное распределение на основе закодированных представлений этого класса. Это позволяет NMOS моделировать разнообразие внутри класса и обеспечивает более надежный метод для определения принадлежности к известным классам. Во время вывода NMOS определяет, принадлежит ли входной запрос к известному классу, вычисляя вероятность его принадлежности к каждому из известных распределений классов, и применяет пороговое значение для проведения различия между известными и неизвестными классами. • Self-reported

4.5%

OCRBench_V2

# Оценка Оценка - это метод тестирования, при котором качество способности модели оценивается путем сравнения её ответа с набором образцов для оценки, которые служат в качестве ориентира или "золотого стандарта". ## Описание В оценке модель решает некую задачу, а затем ответ оценивается по набору критериев, которые представлены в виде образцов для оценки. Эти образцы могут быть представлены в виде: 1. **Баллов** - Модель получает числовую оценку, например, от 1 до 10, в зависимости от того, насколько хорошо она выполнила задание. 2. **Ранжирования** - Несколько ответов ранжируются от лучшего к худшему. 3. **Сравнений** - Два или более ответов сравниваются друг с другом. 4. **Рубрик** - Используется набор критериев для оценки различных аспектов ответа. 5. **Определения победителя** - Выбирается лучший ответ из нескольких вариантов. ## Преимущества - Этот метод позволяет оценить производительность модели и сравнить её с другими моделями в отношении определенной задачи или способности. - Он может использоваться для автоматизированной оценки, если критерии оценки могут быть определены программно. - При использовании экспертных рубрик он может предоставить объективную и детальную оценку производительности модели. ## Недостатки - Некоторые методы оценки требуют участия человека и не могут быть полностью автоматизированы. - Качество оценки напрямую зависит от качества используемых критериев оценки. - Оценки могут быть субъективными и варьироваться между разными оценщиками, особенно для сложных задач. ## Применение - Оценка моделей машинного обучения - Сравнение разных версий одной модели - Оценка прогресса в определенной задаче с течением времени - Диагностика сильных и слабых сторон модели • Self-reported

57.8%

ODinW

**Оценка** В своем анализе мы отдаем приоритет строгой количественной оценке способностей модели, когда это возможно, чтобы обеспечить точное и объективное понимание ее возможностей. Этот раздел детализирует наши методы оценки для различных аспектов производительности. **Количественная оценка** **Математика и программирование** Для математических и программных задач наши оценки основаны на бинарной метрике правильности. Ответ считается правильным, если он точно соответствует ожидаемому результату или эквивалентен ему по логике. **Понимание и рассуждение** Для задач, требующих понимания и рассуждения, мы оцениваем ответы по шкале от 0 до 5, где: - 5: Полностью правильный ответ с безупречными рассуждениями - 4: В основном правильный с незначительными ошибками или упущениями - 3: Частично правильный с некоторыми существенными пробелами - 2: В основном неправильный, но с некоторыми правильными элементами - 1: Полностью неправильный с серьезными заблуждениями - 0: Ответ отсутствует или не относится к делу **Сравнительный анализ** Для более глубокого понимания мы часто сравниваем производительность модели с лучшими в своем классе моделями. Это позволяет нам определить, где она превосходит, соответствует или отстает от современного уровня развития в различных областях. **Качественная оценка** В дополнение к количественным метрикам мы проводим качественный анализ отчетливых характеристик модели, таких как: - **Глубина рассуждений**: Насколько основательно модель исследует сложные проблемы - **Точность**: Насколько верна фактическая информация, предоставляемая моделью - **Ясность**: Насколько хорошо структурированы и понятны ответы модели - **Универсальность**: Насколько хорошо модель приспосабливается к разнообразным задачам и форматам - **Инновационность**: Уникальные и неожиданные подходы, демонстрируемые моделью Этот многогранный подход к оценке позволяет нам представить полную и нюансированную картину возможностей модели, выходящую за рамки простых бинарных метрик верно/неверно. • Self-reported

42.4%

OmniBench

Оценка AI-2 ## Методология Мы анализируем 12 индивидуальных задач из испытания FrontierMath. Для каждой задачи мы рассматриваем различные измерения: 1. **Корректность**: Оценка 0-5 баллов, где 5 означает, что ответ полностью правильный, а 0 означает, что ответ полностью неверный или не предоставлен. 2. **Подробность**: Оценка 0-5 баллов, где 5 означает, что все шаги ясно изложены, а 0 означает, что ответ не имеет объяснения. 3. **Математическая тщательность**: Оценка 0-5 баллов, где 5 означает, что все шаги математически строги и точны, а 0 означает, что работа содержит серьезные математические ошибки. 4. **Сложность стратегии решения**: Оценка 0-5 баллов, где 5 означает высокую изобретательность в решении, а 0 означает, что работа не демонстрирует стратегического мышления. 5. **Использование современных инструментов или подходов**: Качественная оценка того, использует ли LLM современные инструменты или подходы, такие как формальная проверка доказательств, компьютерные системы алгебры или новые алгоритмические подходы. ## Общая оценка Для каждой задачи мы определяем взвешенную сумму вышеуказанных измерений для получения общей оценки. • Self-reported

56.1%

OmniBench Music

Score В этой работе мы выделяем несколько ключевых показателей для оценки качества моделей в сложных математических областях. **Точность первого прохода** рассчитывается как доля задач, где первый представленный ответ модели правильный. Это измеряет способность модели находить решение с первой попытки. **Точность последнего прохода** определяется как доля задач, где последний представленный ответ правильный. Этот показатель отражает способность модели исправлять ошибки и улучшать свое решение. **Зависимость от подсказок** измеряет, насколько производительность модели зависит от конкретных подсказок. Это выявляет чувствительность модели к формулировке задачи и стабильность ее выполнения. **Точность по трудности** позволяет сегментировать производительность модели в зависимости от сложности задач, выявляя сильные и слабые области. **Использование промежуточных шагов** оценивает склонность модели показывать процесс решения и связь между этой склонностью и точностью. • Self-reported

52.8%

PointGrounding

Score Классификация ответов модели по шкале от 0 до 10, характеризующей, насколько полно, точно и корректно ответ решает поставленную задачу. Оценка 10: Ответ полностью соответствует требованиям задачи, включая все необходимые компоненты, в идеальном формате, без ошибок и с оптимальным решением. Оценка 8-9: Ответ в основном соответствует требованиям задачи, содержит все необходимые компоненты, с незначительными недостатками (например, субоптимальное решение или небольшие огрехи в форматировании). Оценка 6-7: Ответ удовлетворяет большинству требований задачи, но содержит несколько недостатков. Присутствуют все существенные компоненты решения, но некоторые менее важные компоненты могут отсутствовать или быть представлены неточно. Оценка 4-5: Ответ имеет серьезные недостатки, но отвечает некоторым ключевым требованиям задачи. Ответ может быть неполным или содержать ошибки, но демонстрирует некоторые знания, относящиеся к теме. Оценка 2-3: Ответ в основном не соответствует требованиям задачи, но содержит хотя бы один компонент правильного ответа. Оценка 0-1: Ответ почти полностью или полностью не соответствует требованиям задачи, не содержит существенных компонентов правильного ответа или полностью неуместен. • Self-reported

66.5%

RealWorldQA

Оценка AI • Self-reported

70.3%

TextVQA

Оценка AI: Я тестировал Claude и GPT-4 на различных задачах в математике, физике и экономике, чтобы оценить их способность рассуждать и находить решения. Тесты включали задачи, требующие как базовых навыков, так и задачи, требующие переноса знаний из разных областей, а также стандартные задачи из математических соревнований (например, AIME, FrontierMath). Я также оценивал их способность к совместной работе, подчеркивая взаимодействие между двумя ИИ. Чтобы измерить производительность, я использовал как количественные, так и качественные подходы: проверял их конечные ответы, но также оценивал способность решать различные задачи с использованием правильных методов. Я разработал трехуровневую систему оценки: "Отлично" (задача решена корректно с использованием правильных методов), "Частично" (задача решена с правильной интуицией, но были ошибки) и "Неудовлетворительно" (неверное решение или отсутствие понимания). Я предпочитал задавать задачи, которые проверяли глубину рассуждений, а не задачи, которые могли быть решены простым поиском по базе знаний. Задачи были разделены на три категории: простые (могут быть решены за 2-3 шага), средние (требуют сложных концепций, интеграции нескольких шагов) и сложные (требуют глубокого понимания и комбинирования нескольких тем). Каждая задача имеет отдельную оценку решения и объяснения. • Self-reported

84.4%

VideoMME w sub.

## Оценка TIES (Текстовая интеграционная система оценки) — это система, которая пытается сопоставить потенциально структурно и словесно различные тексты (например, ответы модели и эталонные ответы) с помощью трех последовательных этапов обработки: 1. **Извлечение**: мы используем LLM для извлечения набора фактов из каждого текста. 2. **Согласование**: мы вычисляем точные и неточные соответствия между каждой парой извлеченных фактов. 3. **Оценка**: используя эти соответствия, мы вычисляем общую оценку сходства между входным текстом и эталонным ответом. TIES достигает высоких корреляций с оценками человека-эксперта без тонкой настройки на конкретные задания или человеческие оценки. Вместо этого он требует только эталонного ответа для каждого вопроса. Общая оценка указывает на степень, в которой текстовый фрагмент (например, ответ на вопрос) содержит ту же информацию, что и эталонный ответ, независимо от различий в формулировке или структуре. • Self-reported

72.4%

VocalSound

Score • Self-reported

93.9%

VoiceBench Avg

Оценка AI: *оценивает ответ как правильный или неправильный* Полезно для понимания способности модели получать правильные ответы на вопросы, но не оценивает ход рассуждений, качество вывода или уверенность модели. Обычно используется с: - Вопросами с выбором ответа - Вопросами с короткими ответами - Задачами классификации - Всеми задачами, где можно четко определить правильный ответ Сильные стороны: объективность, простота масштабирования, низкая стоимость разметки. Слабые стороны: упрощенная модель успешности, не оценивает глубину понимания, рискует создать обманчивое впечатление о производительности модели. • Self-reported

74.1%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

27 марта 2025 г.

Последнее обновление

19 июля 2025 г.