Kimi K2 Base
Базовая модель Kimi K2 представляет собой передовую языковую модель на основе архитектуры mixture-of-experts (MoE) с 32 миллиардами активированных параметров и 1 триллионом общих параметров. Обученная на 15,5 триллионах токенов с использованием оптимизатора MuonClip, это фундаментальная модель до инструктивной настройки. Она демонстрирует высокую производительность в тестах на знания, рассуждения и программирование, при этом оптимизирована для агентных возможностей.
Основные характеристики
Параметры
1.0T
Контекст
-
Дата выпуска
1 января 2025 г.
Средний балл
69.2%
Временная шкала
Ключевые даты в истории модели
Анонс
1 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
1.0T
Токены обучения
15.5T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
EM • Self-reported
Математика
Математические задачи и вычисления
GSM8k
EM • Self-reported
MATH
EM • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond Avg@8
Diamond Avg@8 представляет собой метрику средней производительности модели по итогам 8 экспериментов, которая рассчитывается как среднее 8 наилучших результатов из каждого эксперимента. Например, Diamond Avg@8 для GPT-4o составляет 93,3%, что означает, что GPT-4o получает в среднем 93,3% по своим 8 лучшим попыткам в каждом эксперименте.
Кроме того, Diamond@8 отражает результаты модели на наборе из 8 лучших попыток по всем экспериментам. Это соответствует лучшим показателям, которые можно достичь, используя технику "множественных попыток" (multiple shot) и выбирая лучший результат из нескольких решений, сгенерированных моделью.
В каждом эксперименте наш эталон — это производительность специалиста высокого уровня из области, соответствующей рассматриваемой задаче. • Self-reported
Другие тесты
Специализированные бенчмарки
C-Eval
EM • Self-reported
CSimpleQA
Правильный • Self-reported
EvalPlus
Pass@1 — метрика, оценивающая способность модели корректно решать задачу с первой попытки. Она особенно актуальна в областях, где многократные попытки решения не приветствуются, например, при решении задач программирования.
Вычисление Pass@1 выполняется на множественных генерациях ответов. Если среди n сгенерированных решений есть c корректных, то оценка Pass@1 составляет c/n. При необходимости получить точную оценку Pass@1 по единственному решению, используется Pass@1 = [решение корректное], что эквивалентно стандартной точности.
Метрика Pass@1 широко используется при оценке производительности кодогенерирующих моделей, как в исследованиях, так и при разработке систем автодополнения кода. • Self-reported
LiveCodeBench v6
Pass@1
Pass@1 - метрика, используемая для оценки эффективности моделей генерации кода. Она измеряет процент задач программирования, которые модель может решить с первой попытки.
Как работает Pass@1:
1. Модели предоставляется задача программирования
2. Модель генерирует одно решение
3. Решение проверяется на наборе тестов
4. Если решение проходит все тесты, оно считается успешным
Pass@1 рассчитывается как процент успешно решенных задач из всего набора.
В бенчмарках, где допускается несколько попыток, например Pass@k, Pass@1 является наиболее строгой метрикой, так как она требует успешного решения с первой попытки, без возможности доработки или исправления ошибок.
Высокий показатель Pass@1 указывает на способность модели точно понимать задачи программирования и генерировать работающий код без итераций, что особенно ценно в реальных сценариях разработки. • Self-reported
MMLU-Pro
EM • Self-reported
MMLU-redux-2.0
EM • Self-reported
SimpleQA
Правильный • Self-reported
SuperGPQA
EM • Self-reported
TriviaQA
EM • Self-reported
Лицензия и метаданные
Лицензия
modified_mit_license
Дата анонса
1 января 2025 г.
Последнее обновление
19 июля 2025 г.