GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
nvidianemotronmoeopen-sourcereasoning

3 млрд параметров, золото на олимпиадах — Nemotron-Cascade 2

NVIDIA выпустила Nemotron-Cascade 2 — открытую MoE-модель на 30B параметров с 3B активными. Золотые медали на IMO, IOI и ICPC при 20-кратной экономии ресурсов.

Влад МакаровВлад Макаровпроверил и опубликовал
6 мин чтения
3 млрд параметров, золото на олимпиадах — Nemotron-Cascade 2

Представьте модель, которая решает задачи Международной математической олимпиады на уровне золотой медали, но при этом активирует всего 3 миллиарда параметров. Звучит как маркетинговый трюк, но у NVIDIA есть цифры, чтобы это подтвердить.

Что выпустили

20 марта NVIDIA опубликовала Nemotron-Cascade 2 — открытую модель архитектуры Mixture-of-Experts. Полный размер — 30 миллиардов параметров, но в каждый момент времени работают только 3 миллиарда. Модель построена на базе предобученной Nemotron-Nano-V3 и доступна на HuggingFace под NVIDIA Open Model License.

Главная заявка — золотые медали сразу на трёх международных олимпиадах 2025 года: IMO (математика, 35 баллов), IOI (информатика, 439.3 балла) и ICPC World Finals (программирование, 10 из 12 задач). Это всего вторая открытая модель, которая берёт золото на всех трёх соревнованиях. Первой была DeepSeek-V3.2-Speciale — но она в 20 раз тяжелее (671B параметров, 37B активных).

Как добились такого результата

За достижениями стоит метод Cascade RL — каскадное обучение с подкреплением, при котором модель последовательно тренируется на разных доменах. Вместо одного монолитного этапа RLHF модель проходит через цепочку: Instruction-Following RL, Multi-domain RL, RLHF, Long-Context RL, Code RL, SWE RL. Каждый этап настраивается отдельно, что помогает избежать катастрофического забывания — классической проблемы, когда модель, обучаясь новому, теряет старые навыки.

Второй ключевой приём — Multi-domain On-Policy Distillation (MOPD). Во время каскадного обучения модель накапливает промежуточные версии, и для каждого домена выбирается лучший «учитель». Это позволяет восстанавливать просадки на бенчмарках, которые неизбежно возникают при переходе между доменами.

Модель работает в двух режимах: thinking mode с тегами <think> для задач, требующих рассуждения, и instruct mode для быстрых ответов.

Бенчмарки в деталях

БенчмаркNemotron-Cascade 2Категория
AIME 202592.4Математика
AIME 202690.9Математика
MMLU-Redux86.3Знания
GPQA-Diamond76.1Экспертные знания
LiveCodeBench v687.2Код
SWE Verified50.2Реальные задачи
ArenaHard v283.5Инструкции
NIAH@1M99.0Длинный контекст

С Tool-Integrated Reasoning (использование калькулятора и интерпретатора) результаты ещё выше: AIME 2025 поднимается до 98.6, LiveCodeBench — до 88.4.

Что это меняет

До сих пор золотомедальная производительность на олимпиадах ассоциировалась с гигантскими моделями: сотни миллиардов параметров, десятки GPU для инференса. Nemotron-Cascade 2 показывает, что правильная методология пост-обучения может компенсировать размер. Три миллиарда активных параметров — это территория моделей, которые можно запускать на одной потребительской видеокарте.

Для разработчиков агентных систем особенно интересны показатели на τ²-Bench (58.9) и BFCL v4 (52.9) — это бенчмарки, измеряющие способность модели работать с инструментами и API. В связке с поддержкой контекста до миллиона токенов это делает модель серьёзным кандидатом для локальных AI-агентов.

NVIDIA также выложила в открытый доступ данные для SFT и RL, что позволяет другим исследователям воспроизвести и улучшить каскадный подход. Это редкость для компании такого масштаба — обычно данные для обучения остаются за закрытыми дверями.

Похожие новости

Листайте вниз

для загрузки следующей статьи