Amazon logo

Nova Lite

Мультимодальная
Amazon

Affordable multimodal model providing ultra-fast processing of images, videos, documents, and text.

Основные характеристики

Параметры
-
Контекст
300.0K
Дата выпуска
20 ноября 2024 г.
Средний балл
70.7%

Временная шкала

Ключевые даты в истории модели
Анонс
20 ноября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.06
Выход (за 1М токенов)
$0.24
Макс. входящих токенов
300.0K
Макс. исходящих токенов
2.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
0-shot chain-of-thought AI: 0-shot размышлениеSelf-reported
80.5%

Программирование

Тесты на навыки программирования
HumanEval
pass@1 Для оценки модели, которая получила n примеров, и дала правильный ответ k раз, мы определяем pass@1 как вероятность того, что модель достигнет 100% точности на случайно выбранном одиночном примере. В отличие от обычной точности (accuracy), которая просто равна k/n, pass@1 рассчитывается следующим образом: 1. Для каждого возможного способа выбрать 1 пример из n, рассчитываем: дала ли модель правильный ответ на этот пример? 2. Усредняем по всем возможным комбинациям выбора 1 примера. Математически это просто равно k/n, то есть точности модели. Это метрика оценки является наименее шумной из семейства метрик pass@k, которые используются для оценки производительности моделей ИИ в задачах, где целью является получение полностью правильного решения с ограниченным числом попыток.Self-reported
85.4%

Математика

Математические задачи и вычисления
GSM8k
0-shot CoT Этот метод предписывает модели разбить сложную задачу на серию промежуточных рассуждений перед формулированием окончательного ответа. Процесс происходит без каких-либо явных примеров рассуждений, показанных модели, что побуждает модель к формированию собственной цепочки мышления. В контексте математических задач модель должна сначала понять проблему, выделить соответствующую информацию, затем разработать стратегию решения и последовательно выполнить шаги, необходимые для получения ответа. Этот пошаговый процесс мышления дает модели возможность отслеживать свой ход рассуждений, выявлять ошибки и корректировать себя при необходимости. Например, в задаче о нахождении корней квадратного уравнения, модель будет определять коэффициенты, применять квадратную формулу и вычислять значения корней, прежде чем предоставить окончательный ответ.Self-reported
94.5%
MATH
0-shot CoT Chain-of-thought (CoT) - это техника, которая побуждает LLM сначала описать свои рассуждения или показать свои промежуточные шаги, чтобы прийти к окончательному ответу на задачу. Это достигается с помощью простых инструкций, например, "Давай рассуждать шаг за шагом" или "Я решу эту задачу, используя следующие шаги: ...". CoT часто улучшает точность LLM, особенно в задачах, требующих сложных рассуждений, таких как арифметические задачи, логические головоломки и задачи на умозаключения. Эта техника подталкивает модель к более структурированному подходу, позволяя ей раскладывать сложные проблемы на более простые компоненты и избегать ошибок в рассуждениях. Метод CoT без примеров (0-shot) означает, что мы даем модели только инструкцию рассуждать, не предоставляя примеров решенных задач. В отличие от few-shot CoT, где мы показываем модели примеры рассуждений, в 0-shot CoT модель должна сама выработать подходящий формат рассуждений только на основе инструкции.Self-reported
73.3%

Рассуждения

Логические рассуждения и анализ
DROP
Мы оцениваем производительность фундаментальных моделей на заданиях по решению олимпиадных математических задач, охватывающих комбинаторику, геометрию, алгебру и теорию чисел. Мы не только тестируем модели на предоставлении финального ответа, но и анализируем рассуждения, лежащие в основе их решений, и изучаем влияние различных техник для улучшения их производительности. 1. Пробное решение задач: Мы представляем задачи моделям и просим их решить их, предоставив как рассуждения, так и ответ. В простейшем случае, мы делаем это в формате "0-shot", где модель не имеет доступа к примерам решений, или "few-shot", где мы предоставляем несколько примеров решений в промпте. 2. Анализ ошибок: Когда модель делает ошибку, мы изучаем ее рассуждения, чтобы определить природу ошибки. Ошибки могут возникать из-за неправильного понимания задачи, ошибочного математического подхода, вычислительных ошибок, неспособности разработать полное решение или других факторов. 3. Итеративное улучшение через рассуждения: Мы исследуем, могут ли модели улучшать свои ответы через итеративный процесс рассуждения. Это включает просьбу к модели проверить свои ответы, пересмотреть решения при необходимости или рассмотреть альтернативные подходы. Иногда мы можем попросить модель рассмотреть несколько подходов и выбрать наиболее перспективный. 4. Направляющие подсказки: Мы исследуем влияние различных типов подсказок на производительность модели, например, просьба рассмотреть конкретный тип математической техники, разбить проблему на шаги или предоставить промежуточные вычисления. 5. Совместное решение проблем: Мы экспериментируем с разделением сложных задач на более мелкие компоненты и направлением модели через многошаговый процесс рассуждения, иногда с обратной связью на промежуточных шагах. 6. Сравнительный анализ: Мы сравниваем разные модели на одних и тех же задачах, выявляя различия в подходах к решению, типах ошибок и общей эффективности. 7. Анализ производительности по типам задач: Мы исследуем, с какими типами математических задач различные модели справляются лучше или хуже,Self-reported
80.2%
GPQA
6-shot CoT Метод chain-of-thought (цепочка размышлений) с использованием 6 примеров как демонстрационных образцов. В этом подходе языковой модели предоставляются несколько примеров задач вместе с пошаговыми решениями (цепочками размышлений), которые демонстрируют процесс логического мышления перед формулировкой окончательного ответа. Для каждого примера в промпте показывается: 1. Формулировка задачи 2. Подробный ход рассуждений с промежуточными шагами 3. Итоговый ответ Этот метод значительно повышает производительность языковых моделей на задачах, требующих многоэтапных рассуждений, поскольку модель учится воспроизводить процесс логического вывода, наблюдая за продемонстрированными примерами. 6-shot означает, что используется шесть полных примеров с решениями в промпте для демонстрации желаемого процесса рассуждения. Метод особенно эффективен для решения математических задач, логических головоломок и других задач, где важен не только конечный ответ, но и правильность всего процесса рассуждений.Self-reported
42.0%

Мультимодальность

Работа с изображениями и визуальными данными
ChartQA
релаксированная точностьSelf-reported
86.8%
DocVQA
ANLS Средний нормализованный наименьший балл (ANLS) используется для оценки задач визуального понимания текста. Это широко признанная метрика для оценки моделей в визуальных системах "вопрос-ответ", особенно когда вопросы связаны с извлечением и пониманием текста в изображениях. ANLS учитывает сложности извлечения точного текста из изображений, где распознавание символов может быть неидеальным. Он измеряет сходство между предсказанным ответом модели и эталонным ответом с помощью нормализованного наименьшего расстояния редактирования (NLD). Меньшие значения NLD указывают на более высокое сходство, а при вычислении ANLS пороговое значение (обычно 0.5) используется для определения, считается ли ответ правильным. Чтобы вычислить ANLS для датасета, значения NLD для каждого примера сначала преобразуются (1-NLD, если NLD < 0.5, иначе 0), а затем усредняются по всем примерам. Более высокий ANLS означает лучшее соответствие между предсказаниями модели и эталонными ответами.Self-reported
92.4%
MMMU
CoT точность Для набора тестовых примеров мы оцениваем точность каждой модели, используя вычисления в цепочке рассуждений (CoT). Мы запрашиваем модель, чтобы она решила задачу, используя пошаговые рассуждения, затем извлекаем ее окончательный ответ из последнего этапа в этой последовательности. В каждом запросе мы просим модель вернуть свой ответ в определенном формате, например, "Ответ: [число]". Затем мы оцениваем ответы автоматически, извлекая ответ с помощью регулярных выражений. Мы считаем ответ правильным, если он точно совпадает с меткой правильного ответа (за исключением незначительных различий в форматировании). Мы предоставляем примеры в наших запросах, чтобы продемонстрировать формат решений CoT, которые мы ожидаем от модели. Эти примеры представляют собой проблемы, независимые от тестируемых задач.Self-reported
56.2%

Другие тесты

Специализированные бенчмарки
ARC-C
0-shot chain-of-thought AI: Chain-of-thought (CoT) — это техника, которая побуждает языковые модели объяснять свой ход рассуждений, что приводит к более точным ответам на задачи, требующие рассуждений. Стандартный подход к применению CoT — это включение примеров пошаговых объяснений при формулировании инструкций для языковой модели (few-shot CoT). 0-shot CoT — это вариант CoT, который не требует примеров, а просто побуждает модель мыслить пошагово. Для этого в инструкцию включают такие фразы как "давай решать пошагово" или "давай мыслить пошагово". Это позволяет языковой модели генерировать цепочку рассуждений даже без предоставления примеров. Эта техника особенно полезна для задач, требующих логических и математических рассуждений, и помогает языковым моделям избегать ошибок и приходить к более обоснованным выводам.Self-reported
92.4%
BBH
3-shot CoT Метод "трехшаговых рассуждений" (3-shot Chain of Thought, CoT) — это техника запроса моделей, которая помогает LLM структурировать мыслительный процесс, предоставляя три примера решения задач перед новой задачей. В отличие от базовой техники рассуждений (Chain of Thought) или одношаговых примеров (1-shot), трехшаговый подход предоставляет модели больше контекста и разнообразных примеров решения проблем. Этот метод особенно эффективен для сложных задач, требующих многоэтапных рассуждений, таких как математические проблемы, логические головоломки или задачи, требующие многоуровневого анализа. Предоставляя три различных примера того, как структурировать пошаговое решение, модель получает более четкое представление о необходимом формате и глубине рассуждений. Основное преимущество 3-shot CoT заключается в том, что он снижает вероятность появления случайных отклонений, которые могут возникнуть при использовании меньшего количества примеров, одновременно демонстрируя различные подходы к рассуждению. Этот метод значительно улучшает способность модели справляться со сложными задачами, демонстрируя последовательный и понятный процесс рассуждений.Self-reported
82.4%
BFCL
точностьSelf-reported
66.6%
CRAG
точностьSelf-reported
43.8%
EgoSchema
точностьSelf-reported
71.4%
FinQA
0-shot точностьSelf-reported
73.6%
GroundUI-1K
точностьSelf-reported
80.2%
IFEval
0-shot CoT Это базовый подход цепочки размышлений, когда мы просто просим модель размышлять вслух без каких-либо примеров. Обычно выдается подсказка вида "Давай подумаем об этом шаг за шагом" или "Давай решим эту задачу шаг за шагом". Затем эти размышления используются для получения ответа.Self-reported
89.7%
LVBench
точностьSelf-reported
40.4%
MM-Mind2Web
точностьSelf-reported
60.7%
SQuALITY
ROUGE-L — это метрика оценки качества, которая измеряет сходство между сгенерированным и эталонным текстами, основываясь на самой длинной общей подпоследовательности (LCS). В отличие от других метрик ROUGE, которые рассматривают перекрытие n-грамм, ROUGE-L учитывает структурные сходства на уровне предложений, допуская пропуски, но сохраняя порядок слов. ROUGE-L вычисляет F-меру на основе точности и полноты LCS: - Точность: длина LCS, деленная на длину сгенерированного текста - Полнота: длина LCS, деленная на длину эталонного текста - F-мера: гармоническое среднее точности и полноты Преимущества ROUGE-L включают автоматический учет последовательности слов и способность выявить соответствия даже при наличии вставленных слов. Эта метрика особенно полезна для оценки суммаризации текста и генерации ответов, где важно сохранение ключевой информации в правильном порядке.Self-reported
19.2%
TextVQA
взвешенная точностьSelf-reported
80.2%
Translation en→Set1 COMET22
COMET22 Мы исследуем, как модели реагируют на COMET22. COMET22 — это набор данных, оценивающий способность моделей предсказывать, генерировать или анализировать детализированные, повседневные концептуальные знания, необходимые для понимания ситуаций. Набор данных состоит из нескольких подзадач. Задача ATOMIC — дан антецедент и определенное отношение. Модель должна предсказать консеквент. В инструкциях к этой задаче модель оценивает, насколько правдоподобен каждый из перечисленных консеквентов при заданном антецеденте и отношении. Различные отношения представляют собой если-то и причинно-следственные связи. Например, когда антецедент — "PersonX пьет слишком много кофе", отношение — "xEffect", а три последствия — "PersonX становится энергичным", "PersonX пьянеет" и "PersonX чувствует головокружение", модель оценивает их как правдоподобные, нереалистичные или неопределенные.Self-reported
88.8%
Translation en→Set1 spBleu
spBleu spBleu — это метрика на основе BLEU, разработанная специально для оценки вычислительных ошибок в математическом рассуждении. Традиционные метрики BLEU имеют тенденцию слишком сильно штрафовать небольшие ошибки. spBleu решает эту проблему, сопоставляя числа на основе их числового значения, а не как последовательности токенов. Метрика принимает две строки: сгенерированный текст и референсный текст. Вычисления производятся следующим образом: 1. Разбивка текста на токены. 2. Замена числовых значений в токенах на плейсхолдеры. 3. Вычисление модифицированной точности n-грамм с учетом сопоставления чисел по значению. 4. Комбинирование оценок n-грамм с использованием геометрического среднего. 5. Применение штрафа за краткость. Эта адаптация метрики BLEU лучше подходит для математических выражений, где мелкие различия в представлении чисел не должны сильно влиять на оценку.Self-reported
41.5%
Translation Set1→en COMET22
COMET22 Мы измеряем сравнительное снижение общей производительности на тестах Gopher22 при различных степенях деградации компрессии. COMET22 — это структурированная версия Gopher22, предназначенная для оценки сжатия внутренних знаний модели. В отличие от открытого генерирования, этот формат задаёт модели набор вопросов с несколькими вариантами ответов, которые охватывают различные предметные области, такие как STEM, гуманитарные науки, социальные науки и т.д. Наш подход заключается в том, чтобы создать условия, при которых знания, полученные из обучающих данных, могут быть "сжаты" с потерей точности, и наблюдать, как эта потеря влияет на способность модели отвечать на вопросы. Это позволяет нам изучить компромисс между размером модели и сохранением знаний. Мы разработали протокол тестирования, который включает в себя: 1. Создание базовой производительности для полной модели 2. Применение различных уровней компрессии 3. Измерение процентного снижения точности ответов 4. Анализ паттернов снижения производительности по категориям знаний Результаты COMET22 дают количественную оценку того, как сильно страдают различные области знаний при применении методов компрессии, что позволяет исследователям оптимизировать алгоритмы сжатия для сохранения критически важной информации.Self-reported
88.8%
Translation Set1→en spBleu
spBleu spBleu, или специализированный BLEU (Bilingual Evaluation Understudy), это метрика, разработанная для оценки точности генерации исходного кода в отличие от обычного BLEU, который предназначен для общей оценки перевода текста. spBleu настраивает стандартную метрику BLEU для учета особенностей исходного кода, в частности, для распознавания синтаксической эквивалентности фрагментов кода, которые могут быть текстуально различными. spBleu может быть более точным показателем успешности выполнения задач кодирования, чем обычный BLEU, но он по-прежнему имеет ограничения. Модели могут генерировать синтаксически правильный, но функционально неверный код, получая при этом высокие оценки spBleu. Для надежной оценки генерации кода рекомендуется использовать spBleu в сочетании с другими метриками, такими как функциональное тестирование.Self-reported
43.1%
VATEX
CIDEr Для оценки генеративных моделей изображений используется метрика CIDEr (Consensus-based Image Description Evaluation). CIDEr измеряет консенсус между сгенерированными описаниями изображений и референсными описаниями, составленными людьми. Метрика работает на основе TF-IDF (Term Frequency-Inverse Document Frequency) весов n-грамм. Это позволяет придавать больший вес редким n-граммам, которые с большей вероятностью являются информативными, и меньший вес распространенным n-граммам. Для каждого описания вычисляются векторы TF-IDF для n-грамм различной длины (обычно от 1 до 4). Затем измеряется косинусное сходство между векторами сгенерированного и референсных описаний. CIDEr хорошо коррелирует с человеческими оценками качества описаний изображений и широко используется в задачах генерации подписей к изображениям и визуально-языкового моделирования.Self-reported
77.8%
VisualWebBench
точность составных шаговSelf-reported
77.7%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
20 ноября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.