NVIDIA Nemotron 3 Super: 120B MoE-модель с архитектурой Mamba для агентного AI

NVIDIA выпустила Nemotron 3 Super — открытую 120B MoE-модель с гибридной архитектурой Mamba-Transformer, 1M токенами контекста и 5x приростом пропускной способности.

На конференции GTC 11 марта 2026 года NVIDIA представила Nemotron 3 Super — открытую языковую модель с 120 миллиардами параметров, из которых активно задействуется лишь 12 миллиардов. Это первая крупная модель компании, объединившая гибридную архитектуру Mamba-Transformer с механизмом Mixture of Experts нового типа, и судя по первым результатам, ставка оказалась более чем удачной.

Архитектура: Mamba встречает MoE

Ключевое нововведение Nemotron 3 Super — собственная разработка NVIDIA под названием LatentMoE. В отличие от классической маршрутизации экспертов, LatentMoE сначала сжимает токен из полного скрытого пространства размерностью 4096 в компактное латентное пространство размерностью 1024, и только затем решает, какого эксперта активировать. Четырёхкратное сжатие позволяет держать в модели 512 экспертов и задействовать 22 из них на каждый токен — при тех же вычислительных затратах, что и в стандартной MoE с гораздо меньшим числом экспертов.

Большую часть обработки последовательностей несут на себе слои Mamba-2 — модели пространства состояний с линейной сложностью по длине контекста. Именно они делают возможным контекстное окно в 1 миллион токенов без квадратичного роста памяти под KV-кеш, неизбежного в чисто трансформерных архитектурах. Слои внимания в модели тоже присутствуют, но играют поддерживающую роль: они отвечают за точное воспроизведение фактов там, где Mamba ограничена по своей природе.

Дополнительный прирост скорости обеспечивают слои Multi-Token Prediction (MTP), реализующие встроенное спекулятивное декодирование. Модель генерирует несколько токенов за шаг верификации — в среднем 3,45 токена против 2,70 у DeepSeek-R1 — и это без отдельной черновой модели.

Как учили и на чём

Nemotron 3 Super предобучена на 25 триллионах токенов в формате NVFP4 — 4-битном формате с плавающей запятой, разработанном NVIDIA для архитектуры Blackwell. Обучение в сниженной точности велось с первого шага, а не применялось постфактум как квантизация. После предобучения модель прошла через SFT и обучение с подкреплением на 15 специально подготовленных агентных средах.

Данные для пост-обучения имеют отсечку по февраль 2026 года. NVIDIA публикует не только веса, но и более 10 триллионов токенов наборов данных, все 15 тренировочных окружений и рецепты воспроизведения результатов — редкий уровень открытости для такой компании.

Что показывают бенчмарки

Главная витрина модели — PinchBench, новый бенчмарк для оценки агентного поведения: 85,6% из 100 возможных, лучший результат среди открытых моделей своего класса. На SWE-Bench Verified через OpenHands модель набирает 60,47% — против 41,90% у GPT-OSS-120B. Особенно показателен RULER при 1M токенах контекста: 91,75% у Nemotron 3 Super против 22,30% у конкурента.

Ключевые характеристики модели:

Общее число параметров: 120B / активных: 12B
Контекстное окно: 1 миллион токенов
Скорость генерации: 449,5 токена/с (медиана по провайдерам)
GPQA (без инструментов): 79,23%
SWE-Bench Multilingual: 45,78%
Обучена на 20 языках и 43 языках программирования
Цена в API: $0,30 / 1M входных и $0,80 / 1M выходных токенов

Есть и слабые стороны: Arena-Hard V2 показывает 73,88% — ощутимо ниже GPT-OSS-120B (90,26%), то есть в диалоговых сценариях и субъективных оценках модель пока уступает. GPQA тоже отстаёт от Qwen3.5 на семь процентных пунктов.

Для кого и как запустить

Nemotron 3 Super рассчитана на сложные многошаговые агентные системы: тех, кому нужно загрузить в контекст целую кодовую базу или тысячи страниц финансовых документов. Именно поэтому пропускная способность важнее разговорного качества — модель задумана как «мозг» агента, а не как чат-бот.

Для самостоятельного развёртывания нужны 8 GPU H100-80GB в формате BF16. Модель упакована как NIM-микросервис с поддержкой vLLM, TensorRT-LLM и SGLang. Через API доступна на build.nvidia.com, OpenRouter, Perplexity и Hugging Face.

Пропускная способность по сравнению с Nemotron 2 выросла в 5 раз, а по сравнению с Qwen3.5-122B — в 7,5 раза. Для корпоративных агентных приложений, где токены стоят денег, а задержка критична, это аргумент весомее, чем место в топ-5 GPQA.