DeepSeek-V3
Мощная языковая модель на базе архитектуры Mixture-of-Experts (MoE) с 671 млрд общих параметров (37 млрд активируется на токен). Включает Multi-head Latent Attention (MLA), балансировку нагрузки без вспомогательных потерь и обучение предсказанию множественных токенов. Предобучена на 14,8 трлн токенов с высокими показателями в задачах логического мышления, математики и программирования.
Основные характеристики
Временная шкала
Технические характеристики
Ценообразование и доступность
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Программирование
Рассуждения
Другие тесты
Лицензия и метаданные
Похожие модели
Все моделиDeepSeek-R1
DeepSeek
DeepSeek-R1-0528
DeepSeek
DeepSeek-V2.5
DeepSeek
Jamba 1.5 Large
AI21 Labs
Command R+
Cohere
Kimi K2 Instruct
Moonshot AI
Qwen3 235B A22B
Alibaba
Llama 3.1 405B Instruct
Meta
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.