Nova Pro

Мультимодальная

Amazon

Amazon Nova Pro — это высокопроизводительная мультимодальная модель, демонстрирующая передовые результаты в понимании текста, изображений и видео. Она отлично справляется с базовыми задачами, такими как понимание естественного языка, математические вычисления и мультимодальная обработка данных, обеспечивая при этом лидирующую в отрасли скорость работы и экономическую эффективность.

Основные характеристики

Параметры

Контекст

300.0K

Дата выпуска

20 ноября 2024 г.

Средний балл

73.2%

API документация Исследование Репозиторий

Временная шкала

Ключевые даты в истории модели

Анонс

20 ноября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.80

Выход (за 1М токенов)

$3.20

Макс. входящих токенов

300.0K

Макс. исходящих токенов

300.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

0-shot Chain-of-Thought AI: 0-shot Chain-of-Thought • Self-reported

85.9%

Программирование

Тесты на навыки программирования

HumanEval

0-shot pass@1 AI: *исходный текст на английском* • Self-reported

89.0%

Математика

Математические задачи и вычисления

GSM8k

0-shot Chain-of-Thought AI: 0-shot Chain-of-Thought • Self-reported

94.8%

MATH

0-shot Chain-of-Thought AI: 0-shot Chain-of-Thought • Self-reported

76.6%

Рассуждения

Логические рассуждения и анализ

DROP

## Методология оценки на основе 0-shot Когда мы говорим о 0-shot при оценке систем AI, это означает, что модель делает прогноз, даже не имея примеров того, что ожидается в ответе. Это контрастирует с другими подходами, такими как few-shot (где модели предоставляются несколько примеров) или fine-tuning (где модель специально обучается для конкретной задачи). При 0-shot подходе оценка проводится следующим образом: 1. Модели предоставляется задача или вопрос без каких-либо примеров ожидаемого ответа 2. Оценивается, насколько хорошо модель может выполнить задачу, основываясь только на своих встроенных знаниях 3. Это считается наиболее строгим тестом возможностей модели, поскольку она не получает дополнительных подсказок или примеров Преимущества 0-shot оценки: - Отражает реальные сценарии использования, где примеры часто недоступны - Демонстрирует истинное понимание модели, а не просто способность следовать шаблону - Снижает вероятность "подгонки под тест", так как модель не получает специальной информации о формате ответа Ограничения: - Может недооценивать потенциал модели в ситуациях, где инструкции могли быть сформулированы неясно - Не позволяет моделям адаптироваться к специфическим условиям задачи - Может создавать произвольные различия в оценке из-за формулировки вопроса Для оценки модели в 0-shot режиме часто используют общие вычислительные бенчмарки (GPQA, MATH), задачи рассуждения (HumanEval) и научные тесты, чтобы определить, насколько хорошо модель может применять свои знания без дополнительного контекста. • Self-reported

85.4%

GPQA

6-shot Chain-of-Thought AI: Я проинструктирован решать сложные задачи, разбивая их на шаги. Я вижу 6 примеров задач с пошаговыми решениями, демонстрирующими эффективное применение рассуждений по цепочке (chain-of-thought). Изучив эти примеры, я буду применять такой же структурированный подход к новым задачам. Я буду разбивать сложные задачи на управляемые части, четко артикулировать свой ход мыслей и работать через логические шаги, чтобы прийти к правильному ответу. • Self-reported

46.9%

Мультимодальность

Работа с изображениями и визуальными данными

ChartQA

релаксированная точность • Self-reported

89.2%

DocVQA

ANLS Средняя нормализованная длина подстроки (ANLS) - это метрика, используемая для оценки качества задач извлечения информации, особенно в задачах, связанных с документами. Она измеряет сходство между предсказанным ответом и истинным ответом. ANLS основана на концепции наибольшей общей подпоследовательности (LCS) между двумя строками. Она вычисляет нормализованную длину наибольшей общей подпоследовательности между предсказанным и истинным ответом, а затем усредняет эти значения по всем примерам в наборе данных. Для конкретного предсказания и истинного ответа ANLS рассчитывается как: ANLS = длина(LCS(предсказание, истина)) / максимум(длина(предсказание), длина(истина)) где LCS - это наибольшая общая подпоследовательность между двумя строками. Значения ANLS находятся в диапазоне от 0 до 1, где более высокие значения указывают на лучшую производительность. Значение 1 означает идеальное совпадение между предсказанием и истиной, а значение 0 указывает на отсутствие общих символов. ANLS предпочтительнее точного совпадения в задачах извлечения документов, поскольку она более устойчива к незначительным различиям в форматировании, пунктуации или вариациям в ответах. • Self-reported

93.5%

MMMU

Цепочка размышлений AI: Переведи следующий фрагмент: Chain-of-thought (CoT) prompting is a technique that helps large language models (LLMs) tackle challenging problems by breaking down their reasoning into manageable steps. First introduced in the paper "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022), CoT prompting has become one of the most important techniques for improving the reasoning capabilities of LLMs. CoT prompting can be implemented in various ways: - Few-shot CoT: The prompt includes examples that demonstrate step-by-step reasoning for similar problems - Zero-shot CoT: The model is simply instructed to "think step by step" with no examples provided - Self-consistency with CoT: The model generates multiple reasoning paths and selects the most consistent answer • Self-reported

61.7%

Другие тесты

Специализированные бенчмарки

ARC-C

0-shot Chain-of-Thought AI: 0-shot Chain-of-Thought • Self-reported

94.8%

BBH

3-shot Chain-of-Thought • Self-reported

86.9%

BFCL

точность • Self-reported

68.4%

CRAG

точность • Self-reported

50.3%

EgoSchema

точность • Self-reported

72.1%

FinQA

0-shot точность • Self-reported

77.2%

GroundUI-1K

точность • Self-reported

81.4%

IFEval

# 0-shot В этом базовом методе мы просто представляем проблему модели без каких-либо примеров или подсказок. Это измеряет способность модели решать задачи на основе только знаний, заложенных в её параметры. Мы подаём задачу без какой-либо дополнительной информации и просим модель непосредственно ответить. Это стандартный способ взаимодействия с моделями и служит базовым показателем для сравнения с другими методами. Для каждой проблемы мы даём модели задание и просим её выбрать ответ или решить проблему, не предоставляя примеров того, как решаются похожие задачи. • Self-reported

92.1%

LVBench

точность • Self-reported

41.6%

MM-Mind2Web

Точность пошагового решения AI: 1 step accuracy, in %, [n]: The percentage of n-step reasoning traces that are correct at each step. For example, the proportion of n-step reasoning traces that get step 1 right, the proportion that get step 2 right given that step 1 is right, etc. This metric is useful for identifying where models make errors in multi-step reasoning, and how error rates change along the course of a reasoning trace. • Self-reported

63.7%

SQuALITY

ROUGE-L Мера ROUGE-L (Recall-Oriented Understudy for Gisting Evaluation с учетом наиболее длинной общей последовательности) оценивает сходство между сгенерированным текстом и эталонным текстом на основе длины наиболее длинной общей последовательности (LCS). LCS — это наиболее длинная последовательность слов, общая для обоих текстов с сохранением порядка слов, но необязательно непрерывная. Например, если эталонный текст — "Кот сидит на коврике", а сгенерированный текст — "Кот лежит на коврике", то LCS будет "Кот на коврике" (3 слова). ROUGE-L вычисляется по формулам: Полнота (Recall) = Длина_LCS / Длина_эталонного_текста Точность (Precision) = Длина_LCS / Длина_сгенерированного_текста F-мера = (1 + β²) × (Полнота × Точность) / (β² × Полнота + Точность) где β обычно устанавливается равным 1. Преимущество ROUGE-L в том, что она не требует точного поэлементного совпадения и допускает определенную гибкость в порядке слов, учитывая только самую длинную общую последовательность. • Self-reported

19.8%

TextVQA

взвешенная точность • Self-reported

81.5%

Translation en→Set1 COMET22

COMET22 Оценка возможностей и производительности модели в различных сценариях использования, включая многоэтапное и сложное рассуждение, генерацию кода, понимание контекста, ответы на вопросы и соответствие инструкциям. Включает создание фреймворка оценки, проведение тестирования и анализ качественных характеристик, чтобы выявить сильные стороны, ограничения и идеальные варианты применения модели. • Self-reported

89.1%

Translation en→Set1 spBleu

spBleu Это метрика оценки для задач кодирования программ на основе BLEU. В отличие от стандартного BLEU, который сравнивает последовательности токенов, spBleu работает с деревьями синтаксического разбора (AST) для сравнения семантики программ. Сначала код преобразуется в абстрактное синтаксическое дерево (AST), а затем происходит преобразование в линеаризованное представление. Для каждого узла AST учитываются тип и значение, но имена переменных и константы обобщаются для сохранения структурной информации. Например, "int foo(int a)" будет преобразовано в "INT_TYPE IDENTIFIER(INT_TYPE IDENTIFIER)". spBleu использует это линеаризованное представление для расчета N-грамм и вычисления BLEU-подобной оценки, которая лучше отражает семантическое сходство программ, чем простое текстовое сравнение. Это делает spBleu более надежной метрикой для оценки качества генерации кода в моделях ИИ. • Self-reported

43.4%

Translation Set1→en COMET22

COMET22 Мы представляем COMET22, улучшенный подход к нашей задаче высокоточного вычисления. COMET22 строится на основе нескольких шагов рассуждения. Во-первых, мы используем знания о триангуляции и геометрических свойствах, связанных с данными точками. Каждая точка рассматривается в контексте всего набора, что позволяет нам определить оптимальные пути анализа. Во-вторых, мы применяем итеративный алгоритм приближения, который постепенно уточняет наши расчеты, сходясь к точному решению. Мы отслеживаем погрешность на каждом шаге и корректируем наш подход соответствующим образом. В-третьих, мы выполняем перекрестную проверку через альтернативные методы, гарантируя, что наши результаты согласуются независимо от используемого подхода. Это критически важно для подтверждения правильности нашего решения. Наконец, мы документируем весь процесс рассуждения, сохраняя каждый шаг для последующего анализа и проверки. Это позволяет нам и другим исследователям проверить нашу работу и убедиться в ее точности. COMET22 показал значительное улучшение производительности по сравнению с предыдущими методами в задачах высокоточного вычисления, особенно в сложных геометрических сценариях. • Self-reported

89.0%

Translation Set1→en spBleu

spBleu Это метрика для оценки пространственных заданий. Обычный BLEU сравнивает последовательности токенов без учета их порядка, но в пространственных задачах важно, как элементы размещены относительно друг друга. Например, в задаче программирования размещения фигур на канвасе, если фигуры расположены правильно, но в неправильном порядке, стандартный BLEU даст высокую оценку, хотя решение неверно. spBleu решает эту проблему, учитывая пространственные отношения между элементами. Он анализирует расположение элементов и их взаимоотношения, например, "A находится справа от B" или "C находится внутри D". Затем он строит граф, где узлы — это элементы, а ребра — пространственные отношения. Сравнение решения с эталоном происходит путем вычисления сходства между графами, оценивая как правильное размещение отдельных элементов, так и правильность их пространственных взаимоотношений. • Self-reported

44.4%

VATEX

CIDEr CIDEr (Consensus-based Image Description Evaluation) – метрика оценки для задач формирования описаний изображений. Она измеряет консенсус между машинным описанием изображения и набором человеческих описаний. Основные характеристики: - Использует n-граммы для сравнения описаний - Учитывает как точность, так и согласованность с человеческими описаниями - Применяет TF-IDF взвешивание для выделения важных слов - Использует косинусное сходство для измерения близости описаний CIDEr рассчитывает сходство между сгенерированными подписями и набором эталонных описаний. Вес каждой n-граммы определяется её важностью (более редкие n-граммы получают более высокие веса). Это помогает выявить отличительные черты изображения вместо общих фраз. Метрика широко используется в бенчмарках для оценки моделей компьютерного зрения, которые генерируют текстовые описания визуального контента. • Self-reported

77.8%

VisualWebBench

Композитный • Self-reported

79.7%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

20 ноября 2024 г.

Последнее обновление

19 июля 2025 г.

Nova Pro

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Nova Lite

Nova Micro

Gemini 2.5 Pro Preview 06-05

GPT-5 mini

Grok-3 Mini

Grok-3

GPT-4

GPT-4o