3 млрд параметров, золото на олимпиадах — Nemotron-Cascade 2
NVIDIA выпустила Nemotron-Cascade 2 — открытую MoE-модель на 30B параметров с 3B активными. Золотые медали на IMO, IOI и ICPC при 20-кратной экономии ресурсов.

Представьте модель, которая решает задачи Международной математической олимпиады на уровне золотой медали, но при этом активирует всего 3 миллиарда параметров. Звучит как маркетинговый трюк, но у NVIDIA есть цифры, чтобы это подтвердить.
Что выпустили
20 марта NVIDIA опубликовала Nemotron-Cascade 2 — открытую модель архитектуры Mixture-of-Experts. Полный размер — 30 миллиардов параметров, но в каждый момент времени работают только 3 миллиарда. Модель построена на базе предобученной Nemotron-Nano-V3 и доступна на HuggingFace под NVIDIA Open Model License.
Главная заявка — золотые медали сразу на трёх международных олимпиадах 2025 года: IMO (математика, 35 баллов), IOI (информатика, 439.3 балла) и ICPC World Finals (программирование, 10 из 12 задач). Это всего вторая открытая модель, которая берёт золото на всех трёх соревнованиях. Первой была DeepSeek-V3.2-Speciale — но она в 20 раз тяжелее (671B параметров, 37B активных).
Как добились такого результата
За достижениями стоит метод Cascade RL — каскадное обучение с подкреплением, при котором модель последовательно тренируется на разных доменах. Вместо одного монолитного этапа RLHF модель проходит через цепочку: Instruction-Following RL, Multi-domain RL, RLHF, Long-Context RL, Code RL, SWE RL. Каждый этап настраивается отдельно, что помогает избежать катастрофического забывания — классической проблемы, когда модель, обучаясь новому, теряет старые навыки.
Второй ключевой приём — Multi-domain On-Policy Distillation (MOPD). Во время каскадного обучения модель накапливает промежуточные версии, и для каждого домена выбирается лучший «учитель». Это позволяет восстанавливать просадки на бенчмарках, которые неизбежно возникают при переходе между доменами.
Модель работает в двух режимах: thinking mode с тегами <think> для задач, требующих рассуждения, и instruct mode для быстрых ответов.
Бенчмарки в деталях
| Бенчмарк | Nemotron-Cascade 2 | Категория |
|---|---|---|
| AIME 2025 | 92.4 | Математика |
| AIME 2026 | 90.9 | Математика |
| MMLU-Redux | 86.3 | Знания |
| GPQA-Diamond | 76.1 | Экспертные знания |
| LiveCodeBench v6 | 87.2 | Код |
| SWE Verified | 50.2 | Реальные задачи |
| ArenaHard v2 | 83.5 | Инструкции |
| NIAH@1M | 99.0 | Длинный контекст |
С Tool-Integrated Reasoning (использование калькулятора и интерпретатора) результаты ещё выше: AIME 2025 поднимается до 98.6, LiveCodeBench — до 88.4.
Что это меняет
До сих пор золотомедальная производительность на олимпиадах ассоциировалась с гигантскими моделями: сотни миллиардов параметров, десятки GPU для инференса. Nemotron-Cascade 2 показывает, что правильная методология пост-обучения может компенсировать размер. Три миллиарда активных параметров — это территория моделей, которые можно запускать на одной потребительской видеокарте.
Для разработчиков агентных систем особенно интересны показатели на τ²-Bench (58.9) и BFCL v4 (52.9) — это бенчмарки, измеряющие способность модели работать с инструментами и API. В связке с поддержкой контекста до миллиона токенов это делает модель серьёзным кандидатом для локальных AI-агентов.
NVIDIA также выложила в открытый доступ данные для SFT и RL, что позволяет другим исследователям воспроизвести и улучшить каскадный подход. Это редкость для компании такого масштаба — обычно данные для обучения остаются за закрытыми дверями.


