Llama 3.1 Nemotron Nano 8B V1
Llama-3.1-Nemotron-Nano-8B-v1 — это большая языковая модель (LLM), которая является производной от Meta Llama-3.1-8B-Instruct (также известной как эталонная модель). Это модель рассуждений, которая была дополнительно обучена для логических рассуждений, предпочтений в человеческом общении и задач, таких как RAG и вызов инструментов.
Основные характеристики
Параметры
8.0B
Контекст
-
Дата выпуска
18 марта 2025 г.
Средний балл
72.2%
Временная шкала
Ключевые даты в истории модели
Анонс
18 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
8.0B
Токены обучения
-
Граница знаний
31 декабря 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Программирование
Тесты на навыки программирования
MBPP
0-shot, Pass@1, рассуждение
Метод тестирования способности модели решить задачу с одной попытки, без каких-либо предварительных примеров или подсказок. Модель получает задачу и должна сразу дать правильный ответ. В режиме "рассуждение" модель демонстрирует свой ход мыслей, показывая каждый шаг процесса решения проблемы. Этот метод оценки особенно важен для определения способности модели к логическому мышлению и решению задач в условиях ограниченной информации. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond, Pass@1, Рассуждение
В этом методе анализа мы оцениваем способность модели решать сложные задачи путем разбиения их на поддающиеся проверке этапы рассуждения. Метод требует, чтобы модель сначала выработала пошаговое решение, а затем получила однозначный ответ. Мы оцениваем модель по точности окончательного ответа, при этом процесс рассуждения используется только для формирования решения.
Diamond особенно эффективен для оценки моделей на задачах, требующих многоэтапного рассуждения или сложных вычислений. Этот метод был протестирован на ряде бенчмарков, включая GSM8K, MATH и другие математические наборы данных.
Ключевые преимущества метода Diamond:
- Позволяет моделям проявлять цепочки рассуждений, существенно повышающие точность
- Дает структурированную основу для подхода к сложным задачам
- Предоставляет исследователям более глубокое представление о способностях модели к рассуждению
Этот метод особенно подходит для оценки последних итераций крупных моделей, таких как GPT-4 и Claude, где пошаговое рассуждение значительно улучшает производительность по сравнению с прямыми ответами. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2025
Pass@1, Рассуждение
Pass@1 — это метрика, которая измеряет долю проблем, которые модель может решить верно с первой попытки. В отличие от Pass@k (например, Pass@100), при Pass@1 у модели есть только одна попытка решить задачу, поэтому модель не может полагаться на сэмплирование большого количества решений и выбор лучшего.
Этот метод особенно эффективен для измерения базовых способностей модели к рассуждению, таких как пошаговое решение проблем, цепочки рассуждений и логический вывод. Pass@1 избегает искажений, которые могут появиться при подходах с множественными попытками, где модель может "угадать" правильный ответ, генерируя множество разных решений.
Процедура измерения:
1. Предоставить модели задачу, требующую рассуждений
2. Получить единственное решение
3. Проверить, является ли решение правильным
4. Повторить для набора задач и вычислить процент успешных решений
Преимущества:
- Более точное представление о способностях рассуждения модели в реальных сценариях с одной попыткой
- Устраняет возможность "удачного угадывания" через сэмплирование множества решений
- Позволяет напрямую сравнивать способности моделей к рассуждению
Ограничения:
- Может недооценивать модели, которые имеют пользу от сэмплирования множества решений
- Не отражает полностью сценарии, где допустимы многократные попытки • Self-reported
BFCL v2
Score, Reasoning
AI: Оценка, Обоснование • Self-reported
IFEval
# Strict Accuracy, Reasoning
Метод основан на системе оценивания "Есть/Нет", где строго оценивается, правильный ли окончательный ответ и правильное ли рассуждение.
Оценщик должен вначале определить правильный ответ для предложенной задачи. Затем он смотрит на ответ, предоставленный моделью, и определяет, совпадает ли он с правильным ответом. Следуя этому, оценщик также проверяет, является ли представленное рассуждение правильным, или в нем есть ошибки. Ошибки в рассуждении могут включать: неверное применение формул, расчеты, необоснованные предположения, и неправильное понимание соответствующих понятий.
Логика оценки:
- "Правильный ответ": ответ является точным и соответствует правильному решению.
- "Правильное рассуждение": рассуждение соответствует правильному подходу к решению задачи, без концептуальных ошибок.
Оба критерия должны быть удовлетворены для получения полного балла.
## Пример
### Задача
Какова площадь прямоугольника с длиной 8 см и шириной 5 см?
### Ответ
Для нахождения площади прямоугольника нужно умножить длину на ширину.
Площадь = 8 см × 5 см = 40 см².
### Оценка
- Правильный ответ? ✓
- Правильное рассуждение? ✓
- Итоговая оценка: Полный балл • Self-reported
MATH-500
Pass@1, Рассуждение
AI: Когда задача достаточно сложна, важно выполнять рассуждение шаг за шагом. Для повышения шансов на успех я буду решать задачу поэтапно и убедительно.
Сначала я точно определю, что требуется найти, и выделю ключевую информацию из условия. Затем я разработаю план решения, разбив проблему на управляемые компоненты.
Я буду последовательно работать с каждым компонентом, проверяя свои рассуждения на каждом шаге. Если я столкнусь с трудностями, я рассмотрю альтернативные подходы или переформулирую проблему.
В конце я перепроверю все свои рассуждения и вычисления, чтобы убедиться, что мой ответ верен и полностью отвечает на поставленный вопрос. • Self-reported
MT-Bench
Score, Reasoning
AI: Оценка, Рассуждение • Self-reported
Лицензия и метаданные
Лицензия
llama_3_1_community_license
Дата анонса
18 марта 2025 г.
Последнее обновление
19 июля 2025 г.