DeepSeek-V3
Мощная языковая модель на базе архитектуры Mixture-of-Experts (MoE) с 671 млрд общих параметров (37 млрд активируется на токен). Включает Multi-head Latent Attention (MLA), балансировку нагрузки без вспомогательных потерь и обучение предсказанию множественных токенов. Предобучена на 14,8 трлн токенов с высокими показателями в задачах логического мышления, математики и программирования.
Основные характеристики
Временная шкала
Технические характеристики
Ценообразование и доступность
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Программирование
Рассуждения
Другие тесты
Лицензия и метаданные
Статьи о DeepSeek-V3

GLM-4.7 на Cerebras: 1000 токенов в секунду
Z.ai выпустила GLM-4.7 — open-weight модель с производительностью уровня Claude 4.5 и скоростью генерации 1000+ токенов в секунду на Cerebras.

DeepSeek V4: китайский стартап готовит модель-убийцу для кодинга
DeepSeek анонсировала V4 — новую флагманскую модель с улучшенными возможностями программирования. Релиз ожидается в середине февраля 2026.
Похожие модели
Все моделиDeepSeek-V3.2 (Thinking)
DeepSeek
DeepSeek-V3.2-Exp
DeepSeek
DeepSeek-V3.1
DeepSeek
DeepSeek-R1
DeepSeek
DeepSeek-R1-0528
DeepSeek
DeepSeek R1 Zero
DeepSeek
DeepSeek-V3 0324
DeepSeek
DeepSeek-V3.2-Speciale
DeepSeek
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.