NVIDIA Nemotron 3 Super: 120B MoE-модель с архитектурой Mamba для агентного AI
NVIDIA выпустила Nemotron 3 Super — открытую 120B MoE-модель с гибридной архитектурой Mamba-Transformer, 1M токенами контекста и 5x приростом пропускной способности.

На конференции GTC 11 марта 2026 года NVIDIA представила Nemotron 3 Super — открытую языковую модель с 120 миллиардами параметров, из которых активно задействуется лишь 12 миллиардов. Это первая крупная модель компании, объединившая гибридную архитектуру Mamba-Transformer с механизмом Mixture of Experts нового типа, и судя по первым результатам, ставка оказалась более чем удачной.
Архитектура: Mamba встречает MoE
Ключевое нововведение Nemotron 3 Super — собственная разработка NVIDIA под названием LatentMoE. В отличие от классической маршрутизации экспертов, LatentMoE сначала сжимает токен из полного скрытого пространства размерностью 4096 в компактное латентное пространство размерностью 1024, и только затем решает, какого эксперта активировать. Четырёхкратное сжатие позволяет держать в модели 512 экспертов и задействовать 22 из них на каждый токен — при тех же вычислительных затратах, что и в стандартной MoE с гораздо меньшим числом экспертов.
Большую часть обработки последовательностей несут на себе слои Mamba-2 — модели пространства состояний с линейной сложностью по длине контекста. Именно они делают возможным контекстное окно в 1 миллион токенов без квадратичного роста памяти под KV-кеш, неизбежного в чисто трансформерных архитектурах. Слои внимания в модели тоже присутствуют, но играют поддерживающую роль: они отвечают за точное воспроизведение фактов там, где Mamba ограничена по своей природе.
Дополнительный прирост скорости обеспечивают слои Multi-Token Prediction (MTP), реализующие встроенное спекулятивное декодирование. Модель генерирует несколько токенов за шаг верификации — в среднем 3,45 токена против 2,70 у DeepSeek-R1 — и это без отдельной черновой модели.
Как учили и на чём
Nemotron 3 Super предобучена на 25 триллионах токенов в формате NVFP4 — 4-битном формате с плавающей запятой, разработанном NVIDIA для архитектуры Blackwell. Обучение в сниженной точности велось с первого шага, а не применялось постфактум как квантизация. После предобучения модель прошла через SFT и обучение с подкреплением на 15 специально подготовленных агентных средах.
Данные для пост-обучения имеют отсечку по февраль 2026 года. NVIDIA публикует не только веса, но и более 10 триллионов токенов наборов данных, все 15 тренировочных окружений и рецепты воспроизведения результатов — редкий уровень открытости для такой компании.
Что показывают бенчмарки
Главная витрина модели — PinchBench, новый бенчмарк для оценки агентного поведения: 85,6% из 100 возможных, лучший результат среди открытых моделей своего класса. На SWE-Bench Verified через OpenHands модель набирает 60,47% — против 41,90% у GPT-OSS-120B. Особенно показателен RULER при 1M токенах контекста: 91,75% у Nemotron 3 Super против 22,30% у конкурента.
Ключевые характеристики модели:
- Общее число параметров: 120B / активных: 12B
- Контекстное окно: 1 миллион токенов
- Скорость генерации: 449,5 токена/с (медиана по провайдерам)
- GPQA (без инструментов): 79,23%
- SWE-Bench Multilingual: 45,78%
- Обучена на 20 языках и 43 языках программирования
- Цена в API: $0,30 / 1M входных и $0,80 / 1M выходных токенов
Есть и слабые стороны: Arena-Hard V2 показывает 73,88% — ощутимо ниже GPT-OSS-120B (90,26%), то есть в диалоговых сценариях и субъективных оценках модель пока уступает. GPQA тоже отстаёт от Qwen3.5 на семь процентных пунктов.
Для кого и как запустить
Nemotron 3 Super рассчитана на сложные многошаговые агентные системы: тех, кому нужно загрузить в контекст целую кодовую базу или тысячи страниц финансовых документов. Именно поэтому пропускная способность важнее разговорного качества — модель задумана как «мозг» агента, а не как чат-бот.
Для самостоятельного развёртывания нужны 8 GPU H100-80GB в формате BF16. Модель упакована как NIM-микросервис с поддержкой vLLM, TensorRT-LLM и SGLang. Через API доступна на build.nvidia.com, OpenRouter, Perplexity и Hugging Face.
Пропускная способность по сравнению с Nemotron 2 выросла в 5 раз, а по сравнению с Qwen3.5-122B — в 7,5 раза. Для корпоративных агентных приложений, где токены стоят денег, а задержка критична, это аргумент весомее, чем место в топ-5 GPQA.


