Одна модель вместо трёх: Mistral Small 4 объединяет рассуждения, код и мультимодальность
Mistral AI выпустила Small 4 — гибридную MoE-модель на 119B параметров, объединяющую Instruct, Magistral и Devstral в одном решении с Apache 2.0.

До сих пор у Mistral было три отдельных семейства моделей: Mistral Small для быстрых ответов, Magistral для глубоких рассуждений и Devstral для агентного кодинга. Пользователям приходилось переключаться между ними в зависимости от задачи. Small 4 положила этому конец — теперь всё в одной модели.
Что внутри
Mistral Small 4 — это Mixture of Experts на 119 миллиардов параметров, из которых на каждый токен активируется лишь 6,5 миллиарда (128 экспертов, 4 активных). Контекстное окно — 256 тысяч токенов. Модель принимает на вход и текст, и изображения.
Главная инновация — параметр reasoning_effort, который позволяет управлять глубиной мышления прямо в запросе. При reasoning_effort="none" модель отвечает быстро, как обычный чат-ассистент. При reasoning_effort="high" — включает пошаговые рассуждения уровня Magistral. Никаких отдельных эндпоинтов, никакого переключения между моделями.
Производительность
По данным Mistral, в оптимизированном под латентность сетапе Small 4 даёт 40%-е сокращение времени до полного ответа по сравнению с Small 3. В режиме максимальной пропускной способности — обрабатывает в три раза больше запросов в секунду.
На бенчмарках с включёнными рассуждениями модель конкурирует с GPT-OSS 120B, при этом генерирует заметно более короткие ответы. На AA LCR, например, Small 4 набирает 0.72 при 1600 символах вывода — Qwen-модели тратят на аналогичный результат в 3,5–4 раза больше текста. Меньше токенов — ниже стоимость инференса и быстрее отклик.
Инфраструктура и доступ
Минимальная конфигурация для запуска: 4 карты NVIDIA HGX H100, 2 карты HGX H200 или одна DGX B200. Для оптимальной производительности Mistral рекомендует удвоить эти цифры.
Модель полностью открыта под лицензией Apache 2.0 и уже доступна на Hugging Face, в vLLM, llama.cpp, SGLang и Transformers. Есть квантизированная версия NVFP4 для запуска на меньшем железе и eagle-голова для спекулятивного декодинга, которая дополнительно ускоряет генерацию.
На стороне облака — Mistral API, AI Studio и NVIDIA NIM с оптимизированным контейнером для продакшн-деплоя.
Зачем это нужно
Тренд на унификацию моделей набирает силу. Google объединила возможности в Gemini, Alibaba — в Qwen 3.5. Mistral пошла тем же путём, но с фокусом на эффективность: при 6,5 миллиарда активных параметров на токен Small 4 существенно экономнее конкурентов аналогичного класса.
Для разработчиков это означает упрощение стека — вместо роутинга между тремя моделями достаточно одной, с динамическим управлением через reasoning_effort. Для бизнеса — меньше расходов на инфраструктуру при сохранении качества.
Mistral также вступила в NVIDIA Nemotron Coalition — альянс разработчиков открытых моделей, ориентированный на совместную оптимизацию инференса. Это шаг к тому, чтобы открытые модели могли конкурировать с закрытыми не только по качеству, но и по скорости развёртывания.


