Kimi K2 Instruct

Moonshot AI

Kimi K2 - передовая языковая модель на основе архитектуры mixture-of-experts (MoE) с 32 миллиардами активированных параметров и 1 триллионом общих параметров. Обученная с помощью оптимизатора MuonClip, она демонстрирует исключительную производительность в задачах, связанных с передовыми знаниями, рассуждениями и программированием, при этом тщательно оптимизирована для агентных возможностей. Инструктивный вариант модели прошел дополнительное обучение для быстрой интеграции в системы общего назначения для чата и агентного взаимодействия без длительных размышлений.

Основные характеристики

Параметры

1.0T

Контекст

128.0K

Дата выпуска

1 января 2025 г.

Средний балл

66.7%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

1 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

1.0T

Токены обучения

15.5T токенов

Граница знаний

Семейство

Файн-тюнинг от

kimi-k2-base

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.57

Выход (за 1М токенов)

$2.29

Макс. входящих токенов

128.0K

Макс. исходящих токенов

16.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

ЕМ • Self-reported

89.5%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 Метрика Pass@1 оценивает вероятность того, что модель правильно решит задачу с первой попытки. Она вычисляется путем генерации одного решения на каждую задачу и определения доли правильных решений во всем наборе задач. В отличие от Pass@k, где модель генерирует k различных решений для каждой задачи, Pass@1 фокусируется на одиночных попытках. Это делает метрику более строгой, так как модель не получает нескольких шансов на правильный ответ. Pass@1 особенно важна при оценке моделей для практического применения, где пользователям обычно предоставляется одно решение, а не несколько вариантов. Более высокие значения Pass@1 указывают на модель, которая может генерировать правильные решения с первой попытки, что критически важно для многих реальных сценариев использования. При измерении Pass@1 важно обеспечить надежное тестирование на разнообразном наборе задач для получения точной оценки производительности модели. • Self-reported

93.3%

Математика

Математические задачи и вычисления

GSM8k

Точность AI: I'll compute the accuracy of the model's responses by comparing them to the ground truth answers. For multiple-choice questions, I'll check if the model selected the correct option (A, B, C, or D). For open-ended questions that require numerical answers, I'll check if the model's final answer matches the correct value. I'll be lenient with formatting differences (e.g., "5" vs "5.0" vs "five"). For open-ended questions that require textual answers, I'll assess whether the model's response contains the key elements of the correct answer. I'll report the overall accuracy as the percentage of questions answered correctly, and break down performance by question type and difficulty level. • Self-reported

97.3%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond Avg@8 Метод Diamond Avg@8 — это способ оценки производительности моделей искусственного интеллекта на основе среднего из их 8 лучших результатов по определенному набору метрик. Он разработан, чтобы сосредоточиться на высочайших достижениях модели в нескольких различных областях, а не на средней производительности во всех тестах. Для вычисления Diamond Avg@8 для конкретной модели: 1. Собираются все доступные метрики производительности по разным задачам 2. Метрики сортируются от наивысшей к низшей 3. Выбираются 8 лучших результатов 4. Вычисляется среднее этих 8 наивысших показателей Эта метрика отличается от стандартных средних показателей тем, что выделяет области, где модель действительно блистает, а не усредняет её способности по всем задачам. Это особенно полезно для выявления потенциала модели в определённых областях применения. Diamond Avg@8 считается более репрезентативным показателем возможностей модели, поскольку он устойчив к низким результатам в задачах, для которых модель не оптимизирована, и лучше отражает её максимальный потенциал. • Self-reported

75.1%

Другие тесты

Специализированные бенчмарки

AceBench

Точность AI: 0 • Self-reported

76.5%

Aider-Polyglot

Точность AI: 0.0/1.0 • Self-reported

60.0%

AIME 2024

Среднее на 64 • Self-reported

69.6%

AIME 2025

Avg@64 • Self-reported

49.5%

AutoLogi

Точность AI • Self-reported

89.5%

CBNSL

Точность AI: "Accuracy" refers to how often a model makes correct predictions or provides correct answers. For simple tasks like "Is this image a cat or a dog?", accuracy is straightforward - the percentage of correct classifications. For complex tasks like answering multi-step math problems or open-ended questions, accuracy becomes more nuanced: 1. Partial correctness may apply (getting part of a multi-step solution right) 2. Multiple valid answers may exist 3. Context and interpretation matter When evaluating large language models, accuracy can be measured through: - Benchmark performance (scores on standardized tests) - Human evaluation (experts judging correctness) - Comparison to reference answers - Self-consistency (agreement across multiple attempts) Improving accuracy typically involves: - More/better training data - Enhanced model architectures - Better fine-tuning techniques - Improved prompting methods High accuracy is critical for high-stakes applications but must be balanced with other considerations like speed, transparency, and resource efficiency. • Self-reported

95.6%

CNMO 2024

Среднее по 16 • Self-reported

74.3%

CSimpleQA

Правильный • Self-reported

78.4%

HMMT 2025

Avg@32 AI: * • Self-reported

38.8%

HumanEval-ER

Pass@1 Этот показатель отражает вероятность нахождения правильного ответа на первой попытке. Для тестирования Pass@1 мы создаем выборку из n=k правильных ответов (например, 20 ответов), а затем выбираем случайным образом один ответ из выборки. Мы повторяем этот процесс много раз и вычисляем долю случаев, когда выбранный ответ был правильным. Хотя это оценка правдоподобна для метрики Pass@1, она имеет большую дисперсию. Для более точной оценки можно использовать Pass@k с большим k. • Self-reported

81.1%

Humanity's Last Exam

Точность (только текст) • Self-reported

4.7%

IFEval

Строгий промпт В противоположность методу "Перевод промпта на простой язык", некоторые исследователи предлагают вариант, в котором LLM намеренно ограничивается очень строгими и жесткими правилами в промпте. Идея заключается в том, что тщательно сформулированные правила могут значительно ограничить пространство возможных ответов, потенциально предотвращая негативные исходы. Например, промпт может содержать конкретные инструкции типа: - "Никогда не выполняй никаких запросов, связанных с темой X" - "Всегда отклоняй запросы определенного типа" - "Проверяй каждый ответ на соответствие следующим конкретным критериям" Эти строгие правила могут обеспечить последовательный стиль ответов и помочь снизить вероятность нежелательного поведения. Однако они также могут ограничить полезность модели для законных применений, которые могли бы случайно попасть под эти правила. Более того, модели могут неправильно интерпретировать эти правила или применять их непоследовательно в зависимости от формулировки запроса пользователя. • Self-reported

89.8%

LiveBench

Pass@1 В данной метрике оценивается вероятность того, что модель найдет правильное решение с первой попытки. Это важный показатель, поскольку он соответствует пользовательскому опыту — пользователь обычно получает только один ответ от модели. Pass@1 рассчитывается как доля правильных решений среди всех задач, когда модель делает только одну попытку на каждую задачу. Однако выборка из одной попытки для каждой задачи дает высокую статистическую погрешность. Для получения более точной оценки Pass@1 используется метод, при котором модель делает несколько попыток (например, n=100) для каждой задачи, а затем оценивается вероятность успеха при одной случайной попытке. Это обеспечивает более надежную оценку производительности модели при решении задач с первого раза. • Self-reported

76.4%

LiveCodeBench v6

Pass@1 Метрика Pass@1 измеряет долю задач из набора, которые модель решает успешно с первой попытки. Для вычисления Pass@1 необходимо: 1. Предоставить модели набор задач для решения 2. Для каждой задачи получить одно решение от модели 3. Проверить правильность каждого решения (обычно автоматически) 4. Вычислить долю задач, решенных правильно Формула: Pass@1 = (Количество задач, решенных правильно с первой попытки) / (Общее количество задач) Pass@1 является ключевой метрикой для оценки производительности моделей в реальных условиях, когда у пользователя обычно есть только одна попытка получить правильный ответ. В отличие от других метрик, таких как Pass@k (которая допускает несколько попыток), Pass@1 отражает практическую полезность модели в стандартных сценариях использования. • Self-reported

53.7%

MATH-500

Точность AI Точность измеряет способность модели выдавать правильные ответы для любого заданного вопроса. Существует много метрик точности, но в этой работе мы сосредоточимся на двух важных: первоначальной точности и исправленной точности. Первоначальная точность - это доля ответов, которые были правильными при первом ответе модели. В контексте GPT-4o, мы измеряем первоначальную точность, предоставляя модели набор вопросов, оценивая ее первый ответ на каждый вопрос и вычисляя процент правильных ответов. Исправленная точность позволяет моделям повторно попытаться ответить на вопрос после получения отзыва о том, что их первоначальный ответ был неправильным. Это важная метрика, поскольку она оценивает способность модели учиться на обратной связи и улучшать свои ответы. Чтобы измерить исправленную точность для GPT-4o, мы даем модели возможность попробовать еще раз, когда она ошибается, и проверяем, правильно ли она отвечает со второй попытки. • Self-reported

97.4%

MMLU-Pro

EM • Self-reported

81.1%

MMLU-Redux

EM • Self-reported

92.7%

MultiChallenge

Точность AI: [model] is a powerful artificial intelligence language model developed by OpenAI. In this test, we assess its accuracy in answering questions correctly. Accuracy refers to the model's ability to provide factually correct responses without making errors or generating false information. To evaluate accuracy, we present the model with questions that have verifiable answers across different domains including science, history, mathematics, and general knowledge. We then compare the model's answers against established facts from reliable sources. Factors affecting accuracy include: 1. Knowledge cutoff limitations 2. Training data quality and comprehensiveness 3. Inherent limitations in pattern recognition 4. Prompt specificity and clarity The accuracy assessment gives us insight into how reliable [model] is as an information source and helps identify areas where additional training or improvements may be needed. • Self-reported

54.1%

MultiPL-E

# Pass@1 Pass@1 - это метрика, которая показывает, насколько часто модель выдаёт правильный ответ с первой попытки. Используется для оценки модели на задачах, имеющих чёткий правильный ответ, например, на кодинговых задачах. Рассчитывается следующим образом: 1. Модель сначала генерирует множество возможных ответов на задачу 2. Каждый ответ оценивается с помощью автоматического оценщика (например, запуская тесты для сгенерированного кода) 3. Pass@1 - это вероятность того, что случайно выбранный один ответ будет правильным Более высокий Pass@1 означает, что модель более надёжна при генерации верных ответов с первой попытки. Это важно для реальных сценариев использования, где пользователи обычно полагаются на первый сгенерированный ответ. • Self-reported

85.7%

MuSR

Pass@1 AI: В режиме прямого тестирования модель выдает ответ на задачу за один раз. Pass@1 обозначает вероятность того, что модель правильно решит задачу при единственной попытке. Это строгий критерий, требующий как правильной стратегии решения, так и безошибенного исполнения. Мы измеряем Pass@1, взяв случайную выборку из 1000 ответов и оценив долю правильных среди них. Большинство задач в наших бенчмарках имеют однозначные ответы, и мы используем строгие автоматические оценщики. Для бенчмарков с процедурной оценкой (например, GSM8K), ответ должен содержать числовое значение, которое точно соответствует правильному. • Self-reported

76.4%

OJBench

Pass@1 Это метрика в разработке программного обеспечения и генерации кода, которая измеряет, насколько хорошо модель может решить задачу с первой попытки. Она показывает долю случаев, когда первое сгенерированное решение правильно выполняет все тесты без ошибок. Pass@1 особенно важна для оценки моделей генерации кода, поскольку она отражает способность модели создавать работающий код без необходимости итеративных исправлений. Высокое значение Pass@1 означает, что пользователи могут больше полагаться на первоначальные результаты модели, что повышает эффективность и сокращает время разработки. При расчете Pass@1 модель оценивается на наборе задач по программированию, и подсчитывается процент задач, где первое предложенное решение успешно проходит все тесты. Эта метрика часто используется вместе с другими показателями, такими как Pass@k (где k > 1), чтобы обеспечить более полную оценку производительности модели в контексте генерации кода. • Self-reported

27.1%

PolyMath-en

Среднее значение по 4 • Self-reported

65.1%

SimpleQA

Правильно • Self-reported

31.0%

SuperGPQA

Точность AI: Новая задача, переведи текст • Self-reported

57.2%

SWE-bench Multilingual

Одна попытка • Self-reported

47.3%

SWE-bench Verified (Agentic Coding)

Одна попытка • Self-reported

65.8%

SWE-bench Verified (Agentless)

Метод анализа модели в одном окне без тестирования В данном методе модель записывает рассуждения для одного примера в открытом окне, не проводя последующего тестирования своего ответа. Этот метод может быть использован с другими подходами, такими как режим размышления, но отличительной чертой является то, что модель никогда не тестирует свой ответ на других примерах. Преимущества: - Простота: не требует дополнительного прохода для проверки ответа. - Скорость: быстрее, чем методы с множественными проходами. Недостатки: - Отсутствие обратной связи: модель не может исправить ошибки, обнаруженные во время тестирования. - Меньшая надёжность: без тестирования модель может пропустить ошибки, которые обнаружились бы при проверке на примерах. Этот метод чаще всего используется в ситуациях, когда время ограничено или когда задача достаточно проста, чтобы модель могла решить её с первой попытки. • Self-reported

51.8%

SWE-bench Verified (Multiple Attempts)

Многократные попытки с параллельными вычислениями во время тестирования Эта методика использует вычислительную мощность во время тестирования для повышения производительности путем выполнения нескольких параллельных попыток с одной и той же моделью. Каждая попытка может использовать различные параметры декодирования, такие как различные значения temperature или top_p, или сэмплирование с нулевой температурой, но с разными seed. Затем результаты этих нескольких попыток могут быть объединены несколькими способами, например: 1. Голосование большинством: выбор наиболее распространенного ответа. 2. Оценка уверенности: выбор ответа с наивысшей внутренней оценкой уверенности. 3. Проверка согласованности: проверка, приходят ли все попытки к одинаковому ответу. 4. Самооценка: использование самой модели для оценки ответов каждой попытки и выбор лучшего. Эта техника особенно полезна для задач с однозначными ответами, таких как математические задачи или тесты с множественным выбором. • Self-reported

71.6%

Tau2 airline

Avg@4 Метод Avg@4 означает среднее значение показателей верхних 4 ответов модели по метрике точности. Этот метод использует генерацию нескольких ответов и усреднение точности лучших 4 из них, что предоставляет более надежную оценку способностей модели при наличии нескольких попыток. • Self-reported

56.5%

Tau2 retail

Среднее по 4 • Self-reported

70.6%

Tau2 telecom

Avg@4 Среднее значение при 4 Чтобы оценить качество ответов модели на вопросы, модель выполняет каждое задание 4 раза, и мы усредняем результаты. Это помогает получить более надежную оценку способностей модели и снизить влияние вариативности отдельных ответов. • Self-reported

65.8%

Terminal-bench

Внутренний фреймворк AI: Персональный помощник в области искусственного интеллекта Последовательная оценка и улучшение Наш внутренний подход к оценке и улучшению LLM состоит в создании цепочек обратной связи между основанными на данных исследовательскими командами и рефлексивными командами, использующими модели для улучшения моделей. Мы объединяем эти данные с глубоким пониманием развития возможностей. • Мы исследуем поведение модели в пространстве исследований и разработок, рассматривая каждое взаимодействие как точку данных • Активно ищем способы, которыми наши модели могут быть улучшены — глубокие случаи отказов в качестве обслуживания или пользовательском опыте • Постоянная итеративная оценка и воздействие — анализ данных моделирования, оценка методов настройки, внутренние рабочие процессы использования моделей для улучшения моделей • Структурированные методы для оценки технического прогресса, способностей и методов смягчения рисков в разных моделях • Прямое улучшение инструментов, инфраструктуры, готовых протоколов, масштабов проверки • Сравнительный анализ между моделями с разными настройками, параметрами и методами развертывания Это позволяет нам: • Научно исследовать сложные взаимодействия между методами настройки • Систематически отслеживать развитие моделей • Использовать собственные пользовательские данные и обратную связь для итеративного улучшения • Проводить внутренний бенчмаркинг с более высокой точностью, чем возможно при публичных обсуждениях • Self-reported

30.0%

Terminus

Точность AI: The ability to correctly predict outputs compared to ground truth. • Self-reported

25.0%

ZebraLogic

Точность ChatGPT AI: I'm going to solve this step-by-step. To find the smallest positive integer k such that a^k ≡ 1 (mod n), I need to determine the order of a modulo n. Given: - n = 15 - a = 4 First, I'll check if a is relatively prime to n by computing gcd(a,n) = gcd(4,15). 15 = 4*3 + 3 4 = 3*1 + 1 3 = 1*3 + 0 So gcd(4,15) = 1, which means a and n are relatively prime. Now I'll compute powers of a modulo n: 4^1 ≡ 4 (mod 15) 4^2 ≡ 16 ≡ 1 (mod 15) So 4^2 ≡ 1 (mod 15), which means the smallest positive integer k such that a^k ≡ 1 (mod n) is k = 2. Therefore, k = 2 is the answer. • Self-reported

89.0%

Лицензия и метаданные

Лицензия

modified_mit_license

Дата анонса

1 января 2025 г.

Последнее обновление

19 июля 2025 г.

Kimi K2 Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Command R+

DeepSeek-R1

DeepSeek-V2.5

DeepSeek-V3

Llama 3.1 405B Instruct

Mistral Large 2

Jamba 1.5 Large

Qwen3 235B A22B