Nova Pro
МультимодальнаяAmazon Nova Pro — это высокопроизводительная мультимодальная модель, демонстрирующая передовые результаты в понимании текста, изображений и видео. Она отлично справляется с базовыми задачами, такими как понимание естественного языка, математические вычисления и мультимодальная обработка данных, обеспечивая при этом лидирующую в отрасли скорость работы и экономическую эффективность.
Основные характеристики
Параметры
-
Контекст
300.0K
Дата выпуска
20 ноября 2024 г.
Средний балл
73.2%
Временная шкала
Ключевые даты в истории модели
Анонс
20 ноября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.80
Выход (за 1М токенов)
$3.20
Макс. входящих токенов
300.0K
Макс. исходящих токенов
300.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
0-shot Chain-of-Thought
AI: 0-shot Chain-of-Thought • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
0-shot pass@1
AI: *исходный текст на английском* • Self-reported
Математика
Математические задачи и вычисления
GSM8k
0-shot Chain-of-Thought
AI: 0-shot Chain-of-Thought • Self-reported
MATH
0-shot Chain-of-Thought
AI: 0-shot Chain-of-Thought • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
## Методология оценки на основе 0-shot
Когда мы говорим о 0-shot при оценке систем AI, это означает, что модель делает прогноз, даже не имея примеров того, что ожидается в ответе. Это контрастирует с другими подходами, такими как few-shot (где модели предоставляются несколько примеров) или fine-tuning (где модель специально обучается для конкретной задачи).
При 0-shot подходе оценка проводится следующим образом:
1. Модели предоставляется задача или вопрос без каких-либо примеров ожидаемого ответа
2. Оценивается, насколько хорошо модель может выполнить задачу, основываясь только на своих встроенных знаниях
3. Это считается наиболее строгим тестом возможностей модели, поскольку она не получает дополнительных подсказок или примеров
Преимущества 0-shot оценки:
- Отражает реальные сценарии использования, где примеры часто недоступны
- Демонстрирует истинное понимание модели, а не просто способность следовать шаблону
- Снижает вероятность "подгонки под тест", так как модель не получает специальной информации о формате ответа
Ограничения:
- Может недооценивать потенциал модели в ситуациях, где инструкции могли быть сформулированы неясно
- Не позволяет моделям адаптироваться к специфическим условиям задачи
- Может создавать произвольные различия в оценке из-за формулировки вопроса
Для оценки модели в 0-shot режиме часто используют общие вычислительные бенчмарки (GPQA, MATH), задачи рассуждения (HumanEval) и научные тесты, чтобы определить, насколько хорошо модель может применять свои знания без дополнительного контекста. • Self-reported
GPQA
6-shot Chain-of-Thought
AI: Я проинструктирован решать сложные задачи, разбивая их на шаги. Я вижу 6 примеров задач с пошаговыми решениями, демонстрирующими эффективное применение рассуждений по цепочке (chain-of-thought). Изучив эти примеры, я буду применять такой же структурированный подход к новым задачам. Я буду разбивать сложные задачи на управляемые части, четко артикулировать свой ход мыслей и работать через логические шаги, чтобы прийти к правильному ответу. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
ChartQA
релаксированная точность • Self-reported
DocVQA
ANLS
Средняя нормализованная длина подстроки (ANLS) - это метрика, используемая для оценки качества задач извлечения информации, особенно в задачах, связанных с документами. Она измеряет сходство между предсказанным ответом и истинным ответом.
ANLS основана на концепции наибольшей общей подпоследовательности (LCS) между двумя строками. Она вычисляет нормализованную длину наибольшей общей подпоследовательности между предсказанным и истинным ответом, а затем усредняет эти значения по всем примерам в наборе данных.
Для конкретного предсказания и истинного ответа ANLS рассчитывается как:
ANLS = длина(LCS(предсказание, истина)) / максимум(длина(предсказание), длина(истина))
где LCS - это наибольшая общая подпоследовательность между двумя строками.
Значения ANLS находятся в диапазоне от 0 до 1, где более высокие значения указывают на лучшую производительность. Значение 1 означает идеальное совпадение между предсказанием и истиной, а значение 0 указывает на отсутствие общих символов.
ANLS предпочтительнее точного совпадения в задачах извлечения документов, поскольку она более устойчива к незначительным различиям в форматировании, пунктуации или вариациям в ответах. • Self-reported
MMMU
Цепочка размышлений
AI: Переведи следующий фрагмент:
Chain-of-thought (CoT) prompting is a technique that helps large language models (LLMs) tackle challenging problems by breaking down their reasoning into manageable steps.
First introduced in the paper "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022), CoT prompting has become one of the most important techniques for improving the reasoning capabilities of LLMs.
CoT prompting can be implemented in various ways:
- Few-shot CoT: The prompt includes examples that demonstrate step-by-step reasoning for similar problems
- Zero-shot CoT: The model is simply instructed to "think step by step" with no examples provided
- Self-consistency with CoT: The model generates multiple reasoning paths and selects the most consistent answer • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
0-shot Chain-of-Thought
AI: 0-shot Chain-of-Thought • Self-reported
BBH
3-shot Chain-of-Thought • Self-reported
BFCL
точность • Self-reported
CRAG
точность • Self-reported
EgoSchema
точность • Self-reported
FinQA
0-shot точность • Self-reported
GroundUI-1K
точность • Self-reported
IFEval
# 0-shot
В этом базовом методе мы просто представляем проблему модели без каких-либо примеров или подсказок. Это измеряет способность модели решать задачи на основе только знаний, заложенных в её параметры.
Мы подаём задачу без какой-либо дополнительной информации и просим модель непосредственно ответить. Это стандартный способ взаимодействия с моделями и служит базовым показателем для сравнения с другими методами.
Для каждой проблемы мы даём модели задание и просим её выбрать ответ или решить проблему, не предоставляя примеров того, как решаются похожие задачи. • Self-reported
LVBench
точность • Self-reported
MM-Mind2Web
Точность пошагового решения
AI: 1 step accuracy, in %, [n]: The percentage of n-step reasoning traces that are correct at each step. For example, the proportion of n-step reasoning traces that get step 1 right, the proportion that get step 2 right given that step 1 is right, etc. This metric is useful for identifying where models make errors in multi-step reasoning, and how error rates change along the course of a reasoning trace. • Self-reported
SQuALITY
ROUGE-L
Мера ROUGE-L (Recall-Oriented Understudy for Gisting Evaluation с учетом наиболее длинной общей последовательности) оценивает сходство между сгенерированным текстом и эталонным текстом на основе длины наиболее длинной общей последовательности (LCS).
LCS — это наиболее длинная последовательность слов, общая для обоих текстов с сохранением порядка слов, но необязательно непрерывная. Например, если эталонный текст — "Кот сидит на коврике", а сгенерированный текст — "Кот лежит на коврике", то LCS будет "Кот на коврике" (3 слова).
ROUGE-L вычисляется по формулам:
Полнота (Recall) = Длина_LCS / Длина_эталонного_текста
Точность (Precision) = Длина_LCS / Длина_сгенерированного_текста
F-мера = (1 + β²) × (Полнота × Точность) / (β² × Полнота + Точность)
где β обычно устанавливается равным 1.
Преимущество ROUGE-L в том, что она не требует точного поэлементного совпадения и допускает определенную гибкость в порядке слов, учитывая только самую длинную общую последовательность. • Self-reported
TextVQA
взвешенная точность • Self-reported
Translation en→Set1 COMET22
COMET22
Оценка возможностей и производительности модели в различных сценариях использования, включая многоэтапное и сложное рассуждение, генерацию кода, понимание контекста, ответы на вопросы и соответствие инструкциям. Включает создание фреймворка оценки, проведение тестирования и анализ качественных характеристик, чтобы выявить сильные стороны, ограничения и идеальные варианты применения модели. • Self-reported
Translation en→Set1 spBleu
spBleu
Это метрика оценки для задач кодирования программ на основе BLEU. В отличие от стандартного BLEU, который сравнивает последовательности токенов, spBleu работает с деревьями синтаксического разбора (AST) для сравнения семантики программ.
Сначала код преобразуется в абстрактное синтаксическое дерево (AST), а затем происходит преобразование в линеаризованное представление. Для каждого узла AST учитываются тип и значение, но имена переменных и константы обобщаются для сохранения структурной информации. Например, "int foo(int a)" будет преобразовано в "INT_TYPE IDENTIFIER(INT_TYPE IDENTIFIER)".
spBleu использует это линеаризованное представление для расчета N-грамм и вычисления BLEU-подобной оценки, которая лучше отражает семантическое сходство программ, чем простое текстовое сравнение. Это делает spBleu более надежной метрикой для оценки качества генерации кода в моделях ИИ. • Self-reported
Translation Set1→en COMET22
COMET22
Мы представляем COMET22, улучшенный подход к нашей задаче высокоточного вычисления. COMET22 строится на основе нескольких шагов рассуждения.
Во-первых, мы используем знания о триангуляции и геометрических свойствах, связанных с данными точками. Каждая точка рассматривается в контексте всего набора, что позволяет нам определить оптимальные пути анализа.
Во-вторых, мы применяем итеративный алгоритм приближения, который постепенно уточняет наши расчеты, сходясь к точному решению. Мы отслеживаем погрешность на каждом шаге и корректируем наш подход соответствующим образом.
В-третьих, мы выполняем перекрестную проверку через альтернативные методы, гарантируя, что наши результаты согласуются независимо от используемого подхода. Это критически важно для подтверждения правильности нашего решения.
Наконец, мы документируем весь процесс рассуждения, сохраняя каждый шаг для последующего анализа и проверки. Это позволяет нам и другим исследователям проверить нашу работу и убедиться в ее точности.
COMET22 показал значительное улучшение производительности по сравнению с предыдущими методами в задачах высокоточного вычисления, особенно в сложных геометрических сценариях. • Self-reported
Translation Set1→en spBleu
spBleu
Это метрика для оценки пространственных заданий. Обычный BLEU сравнивает последовательности токенов без учета их порядка, но в пространственных задачах важно, как элементы размещены относительно друг друга. Например, в задаче программирования размещения фигур на канвасе, если фигуры расположены правильно, но в неправильном порядке, стандартный BLEU даст высокую оценку, хотя решение неверно.
spBleu решает эту проблему, учитывая пространственные отношения между элементами. Он анализирует расположение элементов и их взаимоотношения, например, "A находится справа от B" или "C находится внутри D". Затем он строит граф, где узлы — это элементы, а ребра — пространственные отношения. Сравнение решения с эталоном происходит путем вычисления сходства между графами, оценивая как правильное размещение отдельных элементов, так и правильность их пространственных взаимоотношений. • Self-reported
VATEX
CIDEr
CIDEr (Consensus-based Image Description Evaluation) – метрика оценки для задач формирования описаний изображений. Она измеряет консенсус между машинным описанием изображения и набором человеческих описаний.
Основные характеристики:
- Использует n-граммы для сравнения описаний
- Учитывает как точность, так и согласованность с человеческими описаниями
- Применяет TF-IDF взвешивание для выделения важных слов
- Использует косинусное сходство для измерения близости описаний
CIDEr рассчитывает сходство между сгенерированными подписями и набором эталонных описаний. Вес каждой n-граммы определяется её важностью (более редкие n-граммы получают более высокие веса). Это помогает выявить отличительные черты изображения вместо общих фраз.
Метрика широко используется в бенчмарках для оценки моделей компьютерного зрения, которые генерируют текстовые описания визуального контента. • Self-reported
VisualWebBench
Композитный • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
20 ноября 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиNova Lite
Amazon
MM
Лучший скор:0.9 (ARC)
Релиз:нояб. 2024 г.
Цена:$0.06/1M токенов
Nova Micro
Amazon
Лучший скор:0.9 (ARC)
Релиз:нояб. 2024 г.
Цена:$0.03/1M токенов
Gemini 2.5 Pro Preview 06-05
MM
Лучший скор:0.9 (GPQA)
Релиз:июнь 2025 г.
Цена:$1.25/1M токенов
GPT-5 mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.25/1M токенов
Grok-3 Mini
xAI
MM
Лучший скор:0.8 (GPQA)
Релиз:февр. 2025 г.
Цена:$0.30/1M токенов
Grok-3
xAI
MM
Лучший скор:0.8 (GPQA)
Релиз:февр. 2025 г.
Цена:$3.00/1M токенов
GPT-4
OpenAI
MM
Лучший скор:1.0 (ARC)
Релиз:июнь 2023 г.
Цена:$30.00/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.