Kimi K2 Base

Moonshot AI

Базовая модель Kimi K2 представляет собой передовую языковую модель на основе архитектуры mixture-of-experts (MoE) с 32 миллиардами активированных параметров и 1 триллионом общих параметров. Обученная на 15,5 триллионах токенов с использованием оптимизатора MuonClip, это фундаментальная модель до инструктивной настройки. Она демонстрирует высокую производительность в тестах на знания, рассуждения и программирование, при этом оптимизирована для агентных возможностей.

Основные характеристики

Параметры

1.0T

Контекст

Дата выпуска

1 января 2025 г.

Средний балл

69.2%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

1 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

1.0T

Токены обучения

15.5T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

EM • Self-reported

87.8%

Математика

Математические задачи и вычисления

GSM8k

EM • Self-reported

92.1%

MATH

EM • Self-reported

70.2%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond Avg@8 Diamond Avg@8 представляет собой метрику средней производительности модели по итогам 8 экспериментов, которая рассчитывается как среднее 8 наилучших результатов из каждого эксперимента. Например, Diamond Avg@8 для GPT-4o составляет 93,3%, что означает, что GPT-4o получает в среднем 93,3% по своим 8 лучшим попыткам в каждом эксперименте. Кроме того, Diamond@8 отражает результаты модели на наборе из 8 лучших попыток по всем экспериментам. Это соответствует лучшим показателям, которые можно достичь, используя технику "множественных попыток" (multiple shot) и выбирая лучший результат из нескольких решений, сгенерированных моделью. В каждом эксперименте наш эталон — это производительность специалиста высокого уровня из области, соответствующей рассматриваемой задаче. • Self-reported

48.1%

Другие тесты

Специализированные бенчмарки

C-Eval

EM • Self-reported

92.5%

CSimpleQA

Правильный • Self-reported

77.6%

EvalPlus

Pass@1 — метрика, оценивающая способность модели корректно решать задачу с первой попытки. Она особенно актуальна в областях, где многократные попытки решения не приветствуются, например, при решении задач программирования. Вычисление Pass@1 выполняется на множественных генерациях ответов. Если среди n сгенерированных решений есть c корректных, то оценка Pass@1 составляет c/n. При необходимости получить точную оценку Pass@1 по единственному решению, используется Pass@1 = [решение корректное], что эквивалентно стандартной точности. Метрика Pass@1 широко используется при оценке производительности кодогенерирующих моделей, как в исследованиях, так и при разработке систем автодополнения кода. • Self-reported

80.3%

LiveCodeBench v6

Pass@1 Pass@1 - метрика, используемая для оценки эффективности моделей генерации кода. Она измеряет процент задач программирования, которые модель может решить с первой попытки. Как работает Pass@1: 1. Модели предоставляется задача программирования 2. Модель генерирует одно решение 3. Решение проверяется на наборе тестов 4. Если решение проходит все тесты, оно считается успешным Pass@1 рассчитывается как процент успешно решенных задач из всего набора. В бенчмарках, где допускается несколько попыток, например Pass@k, Pass@1 является наиболее строгой метрикой, так как она требует успешного решения с первой попытки, без возможности доработки или исправления ошибок. Высокий показатель Pass@1 указывает на способность модели точно понимать задачи программирования и генерировать работающий код без итераций, что особенно ценно в реальных сценариях разработки. • Self-reported

26.3%

MMLU-Pro

EM • Self-reported

69.2%

MMLU-redux-2.0

EM • Self-reported

90.2%

SimpleQA

Правильный • Self-reported

35.3%

SuperGPQA

EM • Self-reported

44.7%

TriviaQA

EM • Self-reported

85.1%

Лицензия и метаданные

Лицензия

modified_mit_license

Дата анонса

1 января 2025 г.

Последнее обновление

19 июля 2025 г.