Moonshot AI logo

Kimi K2 Base

Moonshot AI

Базовая модель Kimi K2 представляет собой передовую языковую модель на основе архитектуры mixture-of-experts (MoE) с 32 миллиардами активированных параметров и 1 триллионом общих параметров. Обученная на 15,5 триллионах токенов с использованием оптимизатора MuonClip, это фундаментальная модель до инструктивной настройки. Она демонстрирует высокую производительность в тестах на знания, рассуждения и программирование, при этом оптимизирована для агентных возможностей.

Основные характеристики

Параметры
1.0T
Контекст
-
Дата выпуска
1 января 2025 г.
Средний балл
69.2%

Временная шкала

Ключевые даты в истории модели
Анонс
1 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
1.0T
Токены обучения
15.5T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
EMSelf-reported
87.8%

Математика

Математические задачи и вычисления
GSM8k
EMSelf-reported
92.1%
MATH
EMSelf-reported
70.2%

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond Avg@8 Diamond Avg@8 представляет собой метрику средней производительности модели по итогам 8 экспериментов, которая рассчитывается как среднее 8 наилучших результатов из каждого эксперимента. Например, Diamond Avg@8 для GPT-4o составляет 93,3%, что означает, что GPT-4o получает в среднем 93,3% по своим 8 лучшим попыткам в каждом эксперименте. Кроме того, Diamond@8 отражает результаты модели на наборе из 8 лучших попыток по всем экспериментам. Это соответствует лучшим показателям, которые можно достичь, используя технику "множественных попыток" (multiple shot) и выбирая лучший результат из нескольких решений, сгенерированных моделью. В каждом эксперименте наш эталон — это производительность специалиста высокого уровня из области, соответствующей рассматриваемой задаче.Self-reported
48.1%

Другие тесты

Специализированные бенчмарки
C-Eval
EMSelf-reported
92.5%
CSimpleQA
ПравильныйSelf-reported
77.6%
EvalPlus
Pass@1 — метрика, оценивающая способность модели корректно решать задачу с первой попытки. Она особенно актуальна в областях, где многократные попытки решения не приветствуются, например, при решении задач программирования. Вычисление Pass@1 выполняется на множественных генерациях ответов. Если среди n сгенерированных решений есть c корректных, то оценка Pass@1 составляет c/n. При необходимости получить точную оценку Pass@1 по единственному решению, используется Pass@1 = [решение корректное], что эквивалентно стандартной точности. Метрика Pass@1 широко используется при оценке производительности кодогенерирующих моделей, как в исследованиях, так и при разработке систем автодополнения кода.Self-reported
80.3%
LiveCodeBench v6
Pass@1 Pass@1 - метрика, используемая для оценки эффективности моделей генерации кода. Она измеряет процент задач программирования, которые модель может решить с первой попытки. Как работает Pass@1: 1. Модели предоставляется задача программирования 2. Модель генерирует одно решение 3. Решение проверяется на наборе тестов 4. Если решение проходит все тесты, оно считается успешным Pass@1 рассчитывается как процент успешно решенных задач из всего набора. В бенчмарках, где допускается несколько попыток, например Pass@k, Pass@1 является наиболее строгой метрикой, так как она требует успешного решения с первой попытки, без возможности доработки или исправления ошибок. Высокий показатель Pass@1 указывает на способность модели точно понимать задачи программирования и генерировать работающий код без итераций, что особенно ценно в реальных сценариях разработки.Self-reported
26.3%
MMLU-Pro
EMSelf-reported
69.2%
MMLU-redux-2.0
EMSelf-reported
90.2%
SimpleQA
ПравильныйSelf-reported
35.3%
SuperGPQA
EMSelf-reported
44.7%
TriviaQA
EMSelf-reported
85.1%

Лицензия и метаданные

Лицензия
modified_mit_license
Дата анонса
1 января 2025 г.
Последнее обновление
19 июля 2025 г.