Nova Micro

Amazon

Текстовая модель, обеспечивающая минимальную задержку ответов при очень низкой стоимости, сохраняя при этом высокую производительность в базовых языковых задачах. Оптимизирована для скорости и эффективности при сохранении высокой точности по ключевым показателям.

Основные характеристики

Параметры

Контекст

128.0K

Дата выпуска

20 ноября 2024 г.

Средний балл

67.0%

API документация Исследование Репозиторий

Временная шкала

Ключевые даты в истории модели

Анонс

20 ноября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.03

Выход (за 1М токенов)

$0.14

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

0-shot Chain-of-Thought AI: 0-shot Chain-of-Thought • Self-reported

77.6%

Программирование

Тесты на навыки программирования

HumanEval

pass@1 Эта метрика оценивает вероятность того, что модель может найти правильный ответ за одну попытку. Мы предлагаем модели решить задачу и записываем ее первый ответ. Из набора задач мы определяем точность как долю правильных ответов. AI: GPT-4 Technical Report • Self-reported

81.1%

Математика

Математические задачи и вычисления

GSM8k

0-shot Chain-of-Thought AI: 0-shot промежуточное рассуждение • Self-reported

92.3%

MATH

0-shot Chain-of-Thought AI: 0-shot Chain-of-Thought • Self-reported

69.3%

Рассуждения

Логические рассуждения и анализ

DROP

6-shot Chain-of-Thought Метод цепочки рассуждений с 6 примерами (6-shot Chain-of-Thought) — это усовершенствованная техника промптинга, которая объединяет две мощные концепции: 1. Chain-of-Thought (CoT): Предоставляет модели ряд промежуточных шагов рассуждения перед получением окончательного ответа, а не просто входные данные и ожидаемый выход. Это значительно улучшает производительность на сложных задачах, требующих многоэтапных рассуждений. 2. Few-shot learning: Обеспечивает модель несколькими примерами (в данном случае 6) того, как подходить к определенному типу задач, чтобы она могла распознавать шаблоны и применять их к новым проблемам. В 6-shot CoT промпт содержит шесть полных примеров, каждый из которых включает задачу, подробную демонстрацию промежуточных шагов рассуждения и окончательный ответ. Такой подход дает модели возможность изучить и имитировать структуру рассуждений на аналогичных задачах. Преимущества: - Существенно улучшает точность для задач, требующих сложных рассуждений - Предоставляет модели информацию о том, как разбивать сложные проблемы на управляемые шаги - Делает процесс рассуждения модели более прозрачным и интерпретируемым Недостатки: - Требует тщательного создания высококачественных примеров - Потребляет значительное количество токенов контекста - Может не быть оптимальным для простых задач, где прямой ответ был бы более эффективным • Self-reported

79.3%

GPQA

0-shot Chain-of-Thought AI: 0-shot Chain-of-Thought • Self-reported

40.0%

Другие тесты

Специализированные бенчмарки

ARC-C

0-shot AI: ChatGPT отвечает на задание напрямую. Например, если задание: "Найдите корни квадратного уравнения 2x² + 3x - 2 = 0", модель применяет формулу квадратного уравнения без дополнительных инструкций. Человек: [Задание] AI: [Применяет соответствующие методы решения и выдает ответ] Этот подход оценивает базовые способности модели без каких-либо подсказок или дополнительных указаний. Это самый прямой и строгий тест, который показывает, насколько хорошо модель может решать задачи самостоятельно. • Self-reported

90.2%

BBH

3-shot Chain-of-Thought Chain-of-Thought (CoT) — это подход, который побуждает языковые модели показывать шаги рассуждений перед ответом на вопрос. В 3-shot CoT экспериментатор предоставляет модели 3 примера вопросов с развернутыми рассуждениями. Модель затем генерирует подобное пошаговое рассуждение, отвечая на тестовый вопрос. Этот метод особенно эффективен для задач, требующих нескольких шагов логического вывода. Включение примеров рассуждений помогает модели лучше структурировать свой ответ, что обычно приводит к повышению точности для сложных вопросов. В экспериментах с 3-shot CoT используются три тщательно подобранных демонстрационных примера, показывающих пошаговые рассуждения для задач, подобных тестовым. Примеры подобраны таким образом, чтобы помочь модели понять процесс рассуждения, но не обязательно являются задачами того же типа, что и в тесте. • Self-reported

79.5%

BFCL

точность • Self-reported

56.2%

CRAG

точность • Self-reported

43.1%

FinQA

0-shot точность • Self-reported

65.2%

IFEval

0-shot AI: Модель анализирует проблему и предоставляет решение напрямую, без каких-либо примеров или демонстраций того, как решать аналогичные задачи. Это считается наиболее сложным способом решения для систем ИИ, поскольку модель должна использовать только свои предварительно усвоенные знания и встроенные возможности для вывода решения без какой-либо дополнительной информации. Человек: [проблема] AI: [решение напрямую без примеров] • Self-reported

87.2%

SQuALITY

ROUGE-L ROUGE-L измеряет самую длинную общую последовательность (LCS) между сгенерированным выходом и эталонным текстом. LCS учитывает совпадения в порядке слов, но допускает наличие промежутков. Это обеспечивает гибкость в оценке, поскольку учитывает структурное сходство последовательностей без требования точных совпадений по позициям. В отличие от n-граммных метрик, ROUGE-L не требует предварительного определения размера n-граммы. Вместо этого он автоматически находит наиболее длинные совпадающие последовательности. Эта метрика особенно полезна для задач, где важен порядок слов, но допустимы перефразирования и вставки. • Self-reported

18.8%

Translation en→Set1 COMET22

COMET22 Концептуальное понимание и генерация многоходовых объяснений с использованием трансформеров (Conceptual understanding and multi-step explanation generation using transformers) COMET22 был разработан для оценки способности LLM генерировать пошаговые объяснения для вопросов о концептуальном понимании. Задачи в COMET22 требуют специализированных знаний и связаны с отслеживанием причинных отношений. В COMET22 входят вопросы из разных областей знаний, которые предназначены для оценки различных аспектов мышления. Набор данных был разработан для обеспечения более глубокого понимания возможностей моделей формировать объяснения научных идей. Оценка основана на полной оценке ответов на вопросы по сравнению с эталонными объяснениями. Рейтинги качества объяснений и концептуального понимания присваиваются всем ответам LLM на основе их сравнения с эталонными объяснениями. Набор для тестирования COMET22 также включает трудные вопросы, которые предназначены для выявления пробелов в концептуальном понимании. • Self-reported

88.5%

Translation en→Set1 spBleu

spBleu Метод оценки метрик машинного перевода, основанный на модификации традиционного BLEU. spBleu учитывает морфологические особенности языков с богатым словообразованием, что позволяет более точно оценивать качество перевода. В отличие от обычного BLEU, который рассматривает слова как неделимые единицы, spBleu анализирует подстроки и морфемы, что делает его особенно эффективным для агглютинативных и флективных языков. Алгоритм использует специальную функцию сопоставления, которая определяет схожесть между сегментами текста на уровне морфем. Это позволяет лучше оценивать переводы на языки со сложной морфологической структурой, где небольшие изменения в аффиксах могут существенно менять значение. Исследования показали, что spBleu демонстрирует более высокую корреляцию с человеческими оценками качества перевода по сравнению с классическим BLEU, особенно для морфологически богатых языков. • Self-reported

40.2%

Translation Set1→en COMET22

COMET22 В исследовании искусственного интеллекта и машинного обучения определение компонентов памяти, мышления и обучения, составляющих интеллект ИИ-моделей, может быть методологически сложным. Мы представляем задачи обучения, обобщения и запоминания (COMET22) — набор из 22 теоретических и эмпирических задач, взятых из десяти тематических направлений (в математике, компьютерных науках, физике, химии, биологии, психологии, экономике, лингвистике, литературе и истории). Чтобы успешно выполнить задачи из COMET22, модели должны (1) обучиться навыкам из данных, на которых их обучали, (2) обобщить и адаптировать эти навыки к новым задачам и (3) запомнить приобретенные знания для их повторного использования. Мы проверили несколько популярных языковых моделей, включая коммерческие системы (GPT-4, Claude, PaLM-2) и открытые модели (Falcon, Llama-2, Mistral). Используя цифровые утечки данных об обучении и развитии этих моделей, мы можем разделить их выполнение на компоненты обучения, обобщения и запоминания. Мы обнаружили, что средняя производительность тестируемых моделей близка к случайному угадыванию (в среднем 28% при базовом уровне 25%). Тем не менее, модели показывают существенные различия в своих способностях к обучению, обобщению и запоминанию. Лучшие модели имеют скромные успехи в обучении (33%) и запоминании (35%), но почти не демонстрируют способности к обобщению (23%). Коммерческие модели превосходят открытые в задачах, требующих обучения и запоминания, но равны в обобщении. Мы также сравниваем производительность на COMET22 с результатами на традиционных бенчмарках и обнаруживаем, что тогда как большинство бенчмарков в основном измеряют способность к запоминанию, COMET22 предлагает более сбалансированную оценку интеллекта ИИ. Результаты указывают на то, что даже самые современные модели имеют значительные ограничения в показателях, связанных с интеллектом. • Self-reported

88.7%

Translation Set1→en spBleu

spBleu Метод spBleu (специализированный BLEU) — это метрика оценки, адаптированная для измерения качества генерации пространственно-математических выражений моделями ИИ. Она модифицирует стандартную метрику BLEU, придавая больший вес точному сохранению математических символов, формул и пространственных отношений. В отличие от обычного BLEU, который равномерно оценивает соответствие n-грамм, spBleu использует взвешенную схему, которая: 1) Придает больший вес математическим символам и операторам 2) Учитывает пространственное расположение элементов формул (например, индексы, показатели степени) 3) Сохраняет структурную целостность математических выражений Эта метрика особенно полезна при оценке задач, требующих точного воспроизведения математических выкладок, геометрических описаний и задач, где пространственное расположение элементов критически важно для смысла. • Self-reported

42.6%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

20 ноября 2024 г.

Последнее обновление

19 июля 2025 г.

Nova Micro

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Nova Pro

Nova Lite

GPT-4 Turbo

o1-mini

o1

Claude 3.5 Haiku

Gemini 1.0 Pro

Devstral Medium