Llama-3.3 Nemotron Super 49B v1

Name: Llama-3.3 Nemotron Super 49B v1
Rating: 0.8 (7 reviews)
Author: NVIDIA

NVIDIA

Llama-3.3-Nemotron-Super-49B-v1 — это большая языковая модель (LLM), созданная на основе Meta Llama-3.3-70B-Instruct. Она подверглась дообучению для рассуждений, чата, RAG и вызова инструментов, предлагая баланс между точностью и эффективностью (оптимизирована для одного H100). Модель прошла многоэтапное дообучение, включая SFT и RL (RLOO, RPO).

Основные характеристики

Параметры

49.9B

Контекст

Дата выпуска

18 марта 2025 г.

Средний балл

81.0%

Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

18 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

7 февраля 2026 г.

Технические характеристики

Параметры

49.9B

Токены обучения

Граница знаний

31 декабря 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

MBPP

Pass@1, Reasoning On — это показатель, который оценивает производительность модели в решении задач с первой попытки, когда используется режим рассуждения. В этом режиме модель выдает подробный промежуточный ход мысли, прежде чем предоставить окончательный ответ. Использование режима рассуждения помогает моделям улучшить свою производительность, так как они могут выстраивать логические шаги и проверять собственные рассуждения, прежде чем сформулировать окончательный ответ. Без пошагового рассуждения модели часто склонны делать поспешные выводы, что приводит к ошибкам. Метрика Pass@1 измеряет, насколько часто модель получает правильный ответ с первой попытки, без необходимости в повторных попытках или корректировках. Это важный показатель, поскольку он отражает способность модели к точному и надежному рассуждению. В контексте оценки моделей искусственного интеллекта Pass@1 с включенным режимом рассуждения считается более точным отражением того, как модели будут использоваться в реальных приложениях, где пользователи ожидают не только правильных ответов, но и понятного объяснения процесса решения. • Self-reported

91.3%

Рассуждения

Логические рассуждения и анализ

GPQA

Pass@1, Рассуждение Включено Pass@1 — это метрика оценки модели, которая измеряет вероятность того, что модель получит правильный ответ с первой попытки. Более высокие значения Pass@1 означают лучшую производительность модели при решении задач. "Рассуждение Включено" обозначает конкретный режим оценки, при котором модели разрешается демонстрировать ход своих мыслей при решении задачи, а не просто предоставлять окончательный ответ. Например, в математической задаче модель может показать все шаги вычисления перед предоставлением финального ответа. Этот тип оценки соответствует более естественному способу использования LLM, когда пользователи просят модель объяснить свой ход мыслей, а не просто дать ответ. Такой подход позволяет лучше понять процесс рассуждения модели и обычно приводит к более высоким показателям точности, поскольку модель может проверять свою работу и исправлять ошибки в процессе решения. • Self-reported

66.7%

Другие тесты

Специализированные бенчмарки

AIME 2025

Pass@1, Рассуждение Включено Для выполнения задания Pass@1 с включенным режимом рассуждения мы выполняем точно один проход модели по заданию, при этом режим рассуждения активирован. В этом подходе модель решает задачу за один раз, но получает инструкцию мыслить поэтапно, чтобы прийти к решению. В данном случае задача считается решенной, если единственный прогон модели даёт правильный ответ. Этот метод оценивает способность модели получать правильные ответы с первой попытки при использовании подхода поэтапного рассуждения. • Self-reported

58.4%

Arena Hard

Score, Reasoning Off AI: Стандартный сценарий. Модель должна выполнить задачу и дать свой ответ, не показывая промежуточных рассуждений. Оценка: Счёт — фактическая оценка ответа. Выражается как {правильно/неправильно} для вопросов с бинарными ответами или как числовая оценка по заданной шкале. Например, если мы задаем модели вопрос STEM, мы проверяем её конечный ответ на правильность. Если мы даем задачу на рассуждение и есть "золотой стандарт" ответа, мы сравниваем ответ модели с ним. Преимущество: Соответствует стандартным измерениям производительности модели и не требует дополнительных токенов или вычислений для рассуждений. Недостаток: Может игнорировать ситуации, когда модель находит правильный ответ с помощью неверных рассуждений или ошибочной логики. • Self-reported

88.3%

BFCL v2

**Score, Reasoning On** Эта метрика анализирует правильность ответов модели на вопросы, когда от модели явно требуется следовать пошаговому рассуждению. В отличие от метрики [Score, Reasoning Optional], эта метрика использует задания, когда модель явно инструктируется продемонстрировать подробное пошаговое рассуждение перед предоставлением окончательного ответа. В случае задач, требующих математических вычислений, такие инструкции часто помогают моделям, потому что пошаговое рассуждение позволяет им разбивать задачу на более простые подзадачи, проверять свои промежуточные результаты и исправлять ошибки. Команда Anthropic сообщает, что все задания оцениваются автоматически на основе правильного совпадения ответа модели с эталонным ответом. Это означает, что модель может получить оценку 0, даже если она идеально решила проблему, но дала ответ в другом формате, чем ожидаемый (например, "3/8" вместо "0.375"). Они отмечают, что эта метрика оценивает, насколько хорошо модель справляется, когда ей дают четкие инструкции по рассуждению. • Self-reported

73.7%

MATH-500

Pass@1, Reasoning On Это процент правильных решений с первой попытки при включенном режиме рассуждений. Мы оцениваем правильность ответа только в итоговой части решения, отбрасывая все промежуточные рассуждения. Это позволяет нам оценить способность модели решать задачи, но не оценивает саму аргументацию. Для примера, когда модель отвечает на вопрос "Чему равна площадь круга с радиусом 5 см?", оценивается только ответ "78.5 квадратных сантиметров", а не промежуточные рассуждения о формуле πr². Этот показатель дает представление о том, как часто модель может найти правильный ответ с первой попытки, при использовании промежуточных рассуждений. • Self-reported

96.6%

MT-Bench

Score, Reasoning On Рассуждение активировано, что означает, что система предоставит подробное объяснение процесса решения задачи, показывая, как она пришла к своему ответу. Этот режим позволяет лучше отслеживать ход мыслей модели и логику решения. Данный параметр также включает оценку (Score), что означает, что на основе анализа ответа и рассуждения будет выставлен количественный балл, отражающий правильность решения или качество выполнения задачи. • Self-reported

91.7%

Лицензия и метаданные

Лицензия

llama_3_1_community_license

Дата анонса

18 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Llama-3.3 Nemotron Super 49B v1

Основные характеристики

Временная шкала

Технические характеристики

Результаты бенчмарков

Программирование

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Nemotron 3 Nano (30B A3B)

Llama 3.1 Nemotron 70B Instruct

DeepSeek R1 Distill Llama 70B

DeepSeek R1 Distill Qwen 32B

Qwen3 30B A3B

Mistral Small 3 24B Instruct

Qwen2.5 14B Instruct

Gemma 2 27B