Llama 3.1 Nemotron Nano 8B V1

Name: Llama 3.1 Nemotron Nano 8B V1
Author: NVIDIA

NVIDIA

Llama-3.1-Nemotron-Nano-8B-v1 — это большая языковая модель (LLM), которая является производной от Meta Llama-3.1-8B-Instruct (также известной как эталонная модель). Это модель рассуждений, которая была дополнительно обучена для логических рассуждений, предпочтений в человеческом общении и задач, таких как RAG и вызов инструментов.

Основные характеристики

Параметры

8.0B

Контекст

Дата выпуска

18 марта 2025 г.

Средний балл

72.2%

Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

18 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

22 июня 2026 г.

Технические характеристики

Параметры

8.0B

Токены обучения

Граница знаний

31 декабря 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

MBPP

0-shot, Pass@1, рассуждение Метод тестирования способности модели решить задачу с одной попытки, без каких-либо предварительных примеров или подсказок. Модель получает задачу и должна сразу дать правильный ответ. В режиме "рассуждение" модель демонстрирует свой ход мыслей, показывая каждый шаг процесса решения проблемы. Этот метод оценки особенно важен для определения способности модели к логическому мышлению и решению задач в условиях ограниченной информации. • Self-reported

84.6%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond, Pass@1, Рассуждение В этом методе анализа мы оцениваем способность модели решать сложные задачи путем разбиения их на поддающиеся проверке этапы рассуждения. Метод требует, чтобы модель сначала выработала пошаговое решение, а затем получила однозначный ответ. Мы оцениваем модель по точности окончательного ответа, при этом процесс рассуждения используется только для формирования решения. Diamond особенно эффективен для оценки моделей на задачах, требующих многоэтапного рассуждения или сложных вычислений. Этот метод был протестирован на ряде бенчмарков, включая GSM8K, MATH и другие математические наборы данных. Ключевые преимущества метода Diamond: - Позволяет моделям проявлять цепочки рассуждений, существенно повышающие точность - Дает структурированную основу для подхода к сложным задачам - Предоставляет исследователям более глубокое представление о способностях модели к рассуждению Этот метод особенно подходит для оценки последних итераций крупных моделей, таких как GPT-4 и Claude, где пошаговое рассуждение значительно улучшает производительность по сравнению с прямыми ответами. • Self-reported

54.1%

Другие тесты

Специализированные бенчмарки

AIME 2025

Pass@1, Рассуждение Pass@1 — это метрика, которая измеряет долю проблем, которые модель может решить верно с первой попытки. В отличие от Pass@k (например, Pass@100), при Pass@1 у модели есть только одна попытка решить задачу, поэтому модель не может полагаться на сэмплирование большого количества решений и выбор лучшего. Этот метод особенно эффективен для измерения базовых способностей модели к рассуждению, таких как пошаговое решение проблем, цепочки рассуждений и логический вывод. Pass@1 избегает искажений, которые могут появиться при подходах с множественными попытками, где модель может "угадать" правильный ответ, генерируя множество разных решений. Процедура измерения: 1. Предоставить модели задачу, требующую рассуждений 2. Получить единственное решение 3. Проверить, является ли решение правильным 4. Повторить для набора задач и вычислить процент успешных решений Преимущества: - Более точное представление о способностях рассуждения модели в реальных сценариях с одной попыткой - Устраняет возможность "удачного угадывания" через сэмплирование множества решений - Позволяет напрямую сравнивать способности моделей к рассуждению Ограничения: - Может недооценивать модели, которые имеют пользу от сэмплирования множества решений - Не отражает полностью сценарии, где допустимы многократные попытки • Self-reported

47.1%

BFCL v2

Score, Reasoning AI: Оценка, Обоснование • Self-reported

63.6%

IFEval

# Strict Accuracy, Reasoning Метод основан на системе оценивания "Есть/Нет", где строго оценивается, правильный ли окончательный ответ и правильное ли рассуждение. Оценщик должен вначале определить правильный ответ для предложенной задачи. Затем он смотрит на ответ, предоставленный моделью, и определяет, совпадает ли он с правильным ответом. Следуя этому, оценщик также проверяет, является ли представленное рассуждение правильным, или в нем есть ошибки. Ошибки в рассуждении могут включать: неверное применение формул, расчеты, необоснованные предположения, и неправильное понимание соответствующих понятий. Логика оценки: - "Правильный ответ": ответ является точным и соответствует правильному решению. - "Правильное рассуждение": рассуждение соответствует правильному подходу к решению задачи, без концептуальных ошибок. Оба критерия должны быть удовлетворены для получения полного балла. ## Пример ### Задача Какова площадь прямоугольника с длиной 8 см и шириной 5 см? ### Ответ Для нахождения площади прямоугольника нужно умножить длину на ширину. Площадь = 8 см × 5 см = 40 см². ### Оценка - Правильный ответ? ✓ - Правильное рассуждение? ✓ - Итоговая оценка: Полный балл • Self-reported

79.3%

MATH-500

Pass@1, Рассуждение AI: Когда задача достаточно сложна, важно выполнять рассуждение шаг за шагом. Для повышения шансов на успех я буду решать задачу поэтапно и убедительно. Сначала я точно определю, что требуется найти, и выделю ключевую информацию из условия. Затем я разработаю план решения, разбив проблему на управляемые компоненты. Я буду последовательно работать с каждым компонентом, проверяя свои рассуждения на каждом шаге. Если я столкнусь с трудностями, я рассмотрю альтернативные подходы или переформулирую проблему. В конце я перепроверю все свои рассуждения и вычисления, чтобы убедиться, что мой ответ верен и полностью отвечает на поставленный вопрос. • Self-reported

95.4%

MT-Bench

Score, Reasoning AI: Оценка, Рассуждение • Self-reported

81.0%

Лицензия и метаданные

Лицензия

llama_3_1_community_license

Дата анонса

18 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Llama 3.1 Nemotron Nano 8B V1

Основные характеристики

Временная шкала

Технические характеристики

Результаты бенчмарков

Программирование

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Phi 4 Mini Reasoning

DeepSeek R1 Distill Qwen 7B

Phi 4 Mini

Gemma 2 9B

DeepSeek R1 Distill Llama 8B

Ministral 8B Instruct

Llama 3.2 3B Instruct

Qwen2 7B Instruct