NVIDIA logo

Llama-3.3 Nemotron Super 49B v1

NVIDIA

Llama-3.3-Nemotron-Super-49B-v1 — это большая языковая модель (LLM), созданная на основе Meta Llama-3.3-70B-Instruct. Она подверглась дообучению для рассуждений, чата, RAG и вызова инструментов, предлагая баланс между точностью и эффективностью (оптимизирована для одного H100). Модель прошла многоэтапное дообучение, включая SFT и RL (RLOO, RPO).

Основные характеристики

Параметры
49.9B
Контекст
-
Дата выпуска
18 марта 2025 г.
Средний балл
81.0%

Временная шкала

Ключевые даты в истории модели
Анонс
18 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
49.9B
Токены обучения
-
Граница знаний
31 декабря 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
MBPP
Pass@1, Reasoning On — это показатель, который оценивает производительность модели в решении задач с первой попытки, когда используется режим рассуждения. В этом режиме модель выдает подробный промежуточный ход мысли, прежде чем предоставить окончательный ответ. Использование режима рассуждения помогает моделям улучшить свою производительность, так как они могут выстраивать логические шаги и проверять собственные рассуждения, прежде чем сформулировать окончательный ответ. Без пошагового рассуждения модели часто склонны делать поспешные выводы, что приводит к ошибкам. Метрика Pass@1 измеряет, насколько часто модель получает правильный ответ с первой попытки, без необходимости в повторных попытках или корректировках. Это важный показатель, поскольку он отражает способность модели к точному и надежному рассуждению. В контексте оценки моделей искусственного интеллекта Pass@1 с включенным режимом рассуждения считается более точным отражением того, как модели будут использоваться в реальных приложениях, где пользователи ожидают не только правильных ответов, но и понятного объяснения процесса решения.Self-reported
91.3%

Рассуждения

Логические рассуждения и анализ
GPQA
Pass@1, Рассуждение Включено Pass@1 — это метрика оценки модели, которая измеряет вероятность того, что модель получит правильный ответ с первой попытки. Более высокие значения Pass@1 означают лучшую производительность модели при решении задач. "Рассуждение Включено" обозначает конкретный режим оценки, при котором модели разрешается демонстрировать ход своих мыслей при решении задачи, а не просто предоставлять окончательный ответ. Например, в математической задаче модель может показать все шаги вычисления перед предоставлением финального ответа. Этот тип оценки соответствует более естественному способу использования LLM, когда пользователи просят модель объяснить свой ход мыслей, а не просто дать ответ. Такой подход позволяет лучше понять процесс рассуждения модели и обычно приводит к более высоким показателям точности, поскольку модель может проверять свою работу и исправлять ошибки в процессе решения.Self-reported
66.7%

Другие тесты

Специализированные бенчмарки
AIME 2025
Pass@1, Рассуждение Включено Для выполнения задания Pass@1 с включенным режимом рассуждения мы выполняем точно один проход модели по заданию, при этом режим рассуждения активирован. В этом подходе модель решает задачу за один раз, но получает инструкцию мыслить поэтапно, чтобы прийти к решению. В данном случае задача считается решенной, если единственный прогон модели даёт правильный ответ. Этот метод оценивает способность модели получать правильные ответы с первой попытки при использовании подхода поэтапного рассуждения.Self-reported
58.4%
Arena Hard
Score, Reasoning Off AI: Стандартный сценарий. Модель должна выполнить задачу и дать свой ответ, не показывая промежуточных рассуждений. Оценка: Счёт — фактическая оценка ответа. Выражается как {правильно/неправильно} для вопросов с бинарными ответами или как числовая оценка по заданной шкале. Например, если мы задаем модели вопрос STEM, мы проверяем её конечный ответ на правильность. Если мы даем задачу на рассуждение и есть "золотой стандарт" ответа, мы сравниваем ответ модели с ним. Преимущество: Соответствует стандартным измерениям производительности модели и не требует дополнительных токенов или вычислений для рассуждений. Недостаток: Может игнорировать ситуации, когда модель находит правильный ответ с помощью неверных рассуждений или ошибочной логики.Self-reported
88.3%
BFCL v2
**Score, Reasoning On** Эта метрика анализирует правильность ответов модели на вопросы, когда от модели явно требуется следовать пошаговому рассуждению. В отличие от метрики [Score, Reasoning Optional], эта метрика использует задания, когда модель явно инструктируется продемонстрировать подробное пошаговое рассуждение перед предоставлением окончательного ответа. В случае задач, требующих математических вычислений, такие инструкции часто помогают моделям, потому что пошаговое рассуждение позволяет им разбивать задачу на более простые подзадачи, проверять свои промежуточные результаты и исправлять ошибки. Команда Anthropic сообщает, что все задания оцениваются автоматически на основе правильного совпадения ответа модели с эталонным ответом. Это означает, что модель может получить оценку 0, даже если она идеально решила проблему, но дала ответ в другом формате, чем ожидаемый (например, "3/8" вместо "0.375"). Они отмечают, что эта метрика оценивает, насколько хорошо модель справляется, когда ей дают четкие инструкции по рассуждению.Self-reported
73.7%
MATH-500
Pass@1, Reasoning On Это процент правильных решений с первой попытки при включенном режиме рассуждений. Мы оцениваем правильность ответа только в итоговой части решения, отбрасывая все промежуточные рассуждения. Это позволяет нам оценить способность модели решать задачи, но не оценивает саму аргументацию. Для примера, когда модель отвечает на вопрос "Чему равна площадь круга с радиусом 5 см?", оценивается только ответ "78.5 квадратных сантиметров", а не промежуточные рассуждения о формуле πr². Этот показатель дает представление о том, как часто модель может найти правильный ответ с первой попытки, при использовании промежуточных рассуждений.Self-reported
96.6%
MT-Bench
Score, Reasoning On Рассуждение активировано, что означает, что система предоставит подробное объяснение процесса решения задачи, показывая, как она пришла к своему ответу. Этот режим позволяет лучше отслеживать ход мыслей модели и логику решения. Данный параметр также включает оценку (Score), что означает, что на основе анализа ответа и рассуждения будет выставлен количественный балл, отражающий правильность решения или качество выполнения задачи.Self-reported
91.7%

Лицензия и метаданные

Лицензия
llama_3_1_community_license
Дата анонса
18 марта 2025 г.
Последнее обновление
19 июля 2025 г.