Moonshot AI logo

Kimi K2 Instruct

Moonshot AI

Kimi K2 - передовая языковая модель на основе архитектуры mixture-of-experts (MoE) с 32 миллиардами активированных параметров и 1 триллионом общих параметров. Обученная с помощью оптимизатора MuonClip, она демонстрирует исключительную производительность в задачах, связанных с передовыми знаниями, рассуждениями и программированием, при этом тщательно оптимизирована для агентных возможностей. Инструктивный вариант модели прошел дополнительное обучение для быстрой интеграции в системы общего назначения для чата и агентного взаимодействия без длительных размышлений.

Основные характеристики

Параметры
1.0T
Контекст
128.0K
Дата выпуска
1 января 2025 г.
Средний балл
66.7%

Временная шкала

Ключевые даты в истории модели
Анонс
1 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
1.0T
Токены обучения
15.5T токенов
Граница знаний
-
Семейство
-
Файн-тюнинг от
kimi-k2-base
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.57
Выход (за 1М токенов)
$2.29
Макс. входящих токенов
128.0K
Макс. исходящих токенов
16.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
ЕМSelf-reported
89.5%

Программирование

Тесты на навыки программирования
HumanEval
Pass@1 Метрика Pass@1 оценивает вероятность того, что модель правильно решит задачу с первой попытки. Она вычисляется путем генерации одного решения на каждую задачу и определения доли правильных решений во всем наборе задач. В отличие от Pass@k, где модель генерирует k различных решений для каждой задачи, Pass@1 фокусируется на одиночных попытках. Это делает метрику более строгой, так как модель не получает нескольких шансов на правильный ответ. Pass@1 особенно важна при оценке моделей для практического применения, где пользователям обычно предоставляется одно решение, а не несколько вариантов. Более высокие значения Pass@1 указывают на модель, которая может генерировать правильные решения с первой попытки, что критически важно для многих реальных сценариев использования. При измерении Pass@1 важно обеспечить надежное тестирование на разнообразном наборе задач для получения точной оценки производительности модели.Self-reported
93.3%

Математика

Математические задачи и вычисления
GSM8k
Точность AI: I'll compute the accuracy of the model's responses by comparing them to the ground truth answers. For multiple-choice questions, I'll check if the model selected the correct option (A, B, C, or D). For open-ended questions that require numerical answers, I'll check if the model's final answer matches the correct value. I'll be lenient with formatting differences (e.g., "5" vs "5.0" vs "five"). For open-ended questions that require textual answers, I'll assess whether the model's response contains the key elements of the correct answer. I'll report the overall accuracy as the percentage of questions answered correctly, and break down performance by question type and difficulty level.Self-reported
97.3%

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond Avg@8 Метод Diamond Avg@8 — это способ оценки производительности моделей искусственного интеллекта на основе среднего из их 8 лучших результатов по определенному набору метрик. Он разработан, чтобы сосредоточиться на высочайших достижениях модели в нескольких различных областях, а не на средней производительности во всех тестах. Для вычисления Diamond Avg@8 для конкретной модели: 1. Собираются все доступные метрики производительности по разным задачам 2. Метрики сортируются от наивысшей к низшей 3. Выбираются 8 лучших результатов 4. Вычисляется среднее этих 8 наивысших показателей Эта метрика отличается от стандартных средних показателей тем, что выделяет области, где модель действительно блистает, а не усредняет её способности по всем задачам. Это особенно полезно для выявления потенциала модели в определённых областях применения. Diamond Avg@8 считается более репрезентативным показателем возможностей модели, поскольку он устойчив к низким результатам в задачах, для которых модель не оптимизирована, и лучше отражает её максимальный потенциал.Self-reported
75.1%

Другие тесты

Специализированные бенчмарки
AceBench
Точность AI: 0Self-reported
76.5%
Aider-Polyglot
Точность AI: 0.0/1.0Self-reported
60.0%
AIME 2024
Среднее на 64Self-reported
69.6%
AIME 2025
Avg@64Self-reported
49.5%
AutoLogi
Точность AISelf-reported
89.5%
CBNSL
Точность AI: "Accuracy" refers to how often a model makes correct predictions or provides correct answers. For simple tasks like "Is this image a cat or a dog?", accuracy is straightforward - the percentage of correct classifications. For complex tasks like answering multi-step math problems or open-ended questions, accuracy becomes more nuanced: 1. Partial correctness may apply (getting part of a multi-step solution right) 2. Multiple valid answers may exist 3. Context and interpretation matter When evaluating large language models, accuracy can be measured through: - Benchmark performance (scores on standardized tests) - Human evaluation (experts judging correctness) - Comparison to reference answers - Self-consistency (agreement across multiple attempts) Improving accuracy typically involves: - More/better training data - Enhanced model architectures - Better fine-tuning techniques - Improved prompting methods High accuracy is critical for high-stakes applications but must be balanced with other considerations like speed, transparency, and resource efficiency.Self-reported
95.6%
CNMO 2024
Среднее по 16Self-reported
74.3%
CSimpleQA
ПравильныйSelf-reported
78.4%
HMMT 2025
Avg@32 AI: *Self-reported
38.8%
HumanEval-ER
Pass@1 Этот показатель отражает вероятность нахождения правильного ответа на первой попытке. Для тестирования Pass@1 мы создаем выборку из n=k правильных ответов (например, 20 ответов), а затем выбираем случайным образом один ответ из выборки. Мы повторяем этот процесс много раз и вычисляем долю случаев, когда выбранный ответ был правильным. Хотя это оценка правдоподобна для метрики Pass@1, она имеет большую дисперсию. Для более точной оценки можно использовать Pass@k с большим k.Self-reported
81.1%
Humanity's Last Exam
Точность (только текст)Self-reported
4.7%
IFEval
Строгий промпт В противоположность методу "Перевод промпта на простой язык", некоторые исследователи предлагают вариант, в котором LLM намеренно ограничивается очень строгими и жесткими правилами в промпте. Идея заключается в том, что тщательно сформулированные правила могут значительно ограничить пространство возможных ответов, потенциально предотвращая негативные исходы. Например, промпт может содержать конкретные инструкции типа: - "Никогда не выполняй никаких запросов, связанных с темой X" - "Всегда отклоняй запросы определенного типа" - "Проверяй каждый ответ на соответствие следующим конкретным критериям" Эти строгие правила могут обеспечить последовательный стиль ответов и помочь снизить вероятность нежелательного поведения. Однако они также могут ограничить полезность модели для законных применений, которые могли бы случайно попасть под эти правила. Более того, модели могут неправильно интерпретировать эти правила или применять их непоследовательно в зависимости от формулировки запроса пользователя.Self-reported
89.8%
LiveBench
Pass@1 В данной метрике оценивается вероятность того, что модель найдет правильное решение с первой попытки. Это важный показатель, поскольку он соответствует пользовательскому опыту — пользователь обычно получает только один ответ от модели. Pass@1 рассчитывается как доля правильных решений среди всех задач, когда модель делает только одну попытку на каждую задачу. Однако выборка из одной попытки для каждой задачи дает высокую статистическую погрешность. Для получения более точной оценки Pass@1 используется метод, при котором модель делает несколько попыток (например, n=100) для каждой задачи, а затем оценивается вероятность успеха при одной случайной попытке. Это обеспечивает более надежную оценку производительности модели при решении задач с первого раза.Self-reported
76.4%
LiveCodeBench v6
Pass@1 Метрика Pass@1 измеряет долю задач из набора, которые модель решает успешно с первой попытки. Для вычисления Pass@1 необходимо: 1. Предоставить модели набор задач для решения 2. Для каждой задачи получить одно решение от модели 3. Проверить правильность каждого решения (обычно автоматически) 4. Вычислить долю задач, решенных правильно Формула: Pass@1 = (Количество задач, решенных правильно с первой попытки) / (Общее количество задач) Pass@1 является ключевой метрикой для оценки производительности моделей в реальных условиях, когда у пользователя обычно есть только одна попытка получить правильный ответ. В отличие от других метрик, таких как Pass@k (которая допускает несколько попыток), Pass@1 отражает практическую полезность модели в стандартных сценариях использования.Self-reported
53.7%
MATH-500
Точность AI Точность измеряет способность модели выдавать правильные ответы для любого заданного вопроса. Существует много метрик точности, но в этой работе мы сосредоточимся на двух важных: первоначальной точности и исправленной точности. Первоначальная точность - это доля ответов, которые были правильными при первом ответе модели. В контексте GPT-4o, мы измеряем первоначальную точность, предоставляя модели набор вопросов, оценивая ее первый ответ на каждый вопрос и вычисляя процент правильных ответов. Исправленная точность позволяет моделям повторно попытаться ответить на вопрос после получения отзыва о том, что их первоначальный ответ был неправильным. Это важная метрика, поскольку она оценивает способность модели учиться на обратной связи и улучшать свои ответы. Чтобы измерить исправленную точность для GPT-4o, мы даем модели возможность попробовать еще раз, когда она ошибается, и проверяем, правильно ли она отвечает со второй попытки.Self-reported
97.4%
MMLU-Pro
EMSelf-reported
81.1%
MMLU-Redux
EMSelf-reported
92.7%
MultiChallenge
Точность AI: [model] is a powerful artificial intelligence language model developed by OpenAI. In this test, we assess its accuracy in answering questions correctly. Accuracy refers to the model's ability to provide factually correct responses without making errors or generating false information. To evaluate accuracy, we present the model with questions that have verifiable answers across different domains including science, history, mathematics, and general knowledge. We then compare the model's answers against established facts from reliable sources. Factors affecting accuracy include: 1. Knowledge cutoff limitations 2. Training data quality and comprehensiveness 3. Inherent limitations in pattern recognition 4. Prompt specificity and clarity The accuracy assessment gives us insight into how reliable [model] is as an information source and helps identify areas where additional training or improvements may be needed.Self-reported
54.1%
MultiPL-E
# Pass@1 Pass@1 - это метрика, которая показывает, насколько часто модель выдаёт правильный ответ с первой попытки. Используется для оценки модели на задачах, имеющих чёткий правильный ответ, например, на кодинговых задачах. Рассчитывается следующим образом: 1. Модель сначала генерирует множество возможных ответов на задачу 2. Каждый ответ оценивается с помощью автоматического оценщика (например, запуская тесты для сгенерированного кода) 3. Pass@1 - это вероятность того, что случайно выбранный один ответ будет правильным Более высокий Pass@1 означает, что модель более надёжна при генерации верных ответов с первой попытки. Это важно для реальных сценариев использования, где пользователи обычно полагаются на первый сгенерированный ответ.Self-reported
85.7%
MuSR
Pass@1 AI: В режиме прямого тестирования модель выдает ответ на задачу за один раз. Pass@1 обозначает вероятность того, что модель правильно решит задачу при единственной попытке. Это строгий критерий, требующий как правильной стратегии решения, так и безошибенного исполнения. Мы измеряем Pass@1, взяв случайную выборку из 1000 ответов и оценив долю правильных среди них. Большинство задач в наших бенчмарках имеют однозначные ответы, и мы используем строгие автоматические оценщики. Для бенчмарков с процедурной оценкой (например, GSM8K), ответ должен содержать числовое значение, которое точно соответствует правильному.Self-reported
76.4%
OJBench
Pass@1 Это метрика в разработке программного обеспечения и генерации кода, которая измеряет, насколько хорошо модель может решить задачу с первой попытки. Она показывает долю случаев, когда первое сгенерированное решение правильно выполняет все тесты без ошибок. Pass@1 особенно важна для оценки моделей генерации кода, поскольку она отражает способность модели создавать работающий код без необходимости итеративных исправлений. Высокое значение Pass@1 означает, что пользователи могут больше полагаться на первоначальные результаты модели, что повышает эффективность и сокращает время разработки. При расчете Pass@1 модель оценивается на наборе задач по программированию, и подсчитывается процент задач, где первое предложенное решение успешно проходит все тесты. Эта метрика часто используется вместе с другими показателями, такими как Pass@k (где k > 1), чтобы обеспечить более полную оценку производительности модели в контексте генерации кода.Self-reported
27.1%
PolyMath-en
Среднее значение по 4Self-reported
65.1%
SimpleQA
ПравильноSelf-reported
31.0%
SuperGPQA
Точность AI: Новая задача, переведи текстSelf-reported
57.2%
SWE-bench Multilingual
Одна попыткаSelf-reported
47.3%
SWE-bench Verified (Agentic Coding)
Одна попыткаSelf-reported
65.8%
SWE-bench Verified (Agentless)
Метод анализа модели в одном окне без тестирования В данном методе модель записывает рассуждения для одного примера в открытом окне, не проводя последующего тестирования своего ответа. Этот метод может быть использован с другими подходами, такими как режим размышления, но отличительной чертой является то, что модель никогда не тестирует свой ответ на других примерах. Преимущества: - Простота: не требует дополнительного прохода для проверки ответа. - Скорость: быстрее, чем методы с множественными проходами. Недостатки: - Отсутствие обратной связи: модель не может исправить ошибки, обнаруженные во время тестирования. - Меньшая надёжность: без тестирования модель может пропустить ошибки, которые обнаружились бы при проверке на примерах. Этот метод чаще всего используется в ситуациях, когда время ограничено или когда задача достаточно проста, чтобы модель могла решить её с первой попытки.Self-reported
51.8%
SWE-bench Verified (Multiple Attempts)
Многократные попытки с параллельными вычислениями во время тестирования Эта методика использует вычислительную мощность во время тестирования для повышения производительности путем выполнения нескольких параллельных попыток с одной и той же моделью. Каждая попытка может использовать различные параметры декодирования, такие как различные значения temperature или top_p, или сэмплирование с нулевой температурой, но с разными seed. Затем результаты этих нескольких попыток могут быть объединены несколькими способами, например: 1. Голосование большинством: выбор наиболее распространенного ответа. 2. Оценка уверенности: выбор ответа с наивысшей внутренней оценкой уверенности. 3. Проверка согласованности: проверка, приходят ли все попытки к одинаковому ответу. 4. Самооценка: использование самой модели для оценки ответов каждой попытки и выбор лучшего. Эта техника особенно полезна для задач с однозначными ответами, таких как математические задачи или тесты с множественным выбором.Self-reported
71.6%
Tau2 airline
Avg@4 Метод Avg@4 означает среднее значение показателей верхних 4 ответов модели по метрике точности. Этот метод использует генерацию нескольких ответов и усреднение точности лучших 4 из них, что предоставляет более надежную оценку способностей модели при наличии нескольких попыток.Self-reported
56.5%
Tau2 retail
Среднее по 4Self-reported
70.6%
Tau2 telecom
Avg@4 Среднее значение при 4 Чтобы оценить качество ответов модели на вопросы, модель выполняет каждое задание 4 раза, и мы усредняем результаты. Это помогает получить более надежную оценку способностей модели и снизить влияние вариативности отдельных ответов.Self-reported
65.8%
Terminal-bench
Внутренний фреймворк AI: Персональный помощник в области искусственного интеллекта Последовательная оценка и улучшение Наш внутренний подход к оценке и улучшению LLM состоит в создании цепочек обратной связи между основанными на данных исследовательскими командами и рефлексивными командами, использующими модели для улучшения моделей. Мы объединяем эти данные с глубоким пониманием развития возможностей. • Мы исследуем поведение модели в пространстве исследований и разработок, рассматривая каждое взаимодействие как точку данных • Активно ищем способы, которыми наши модели могут быть улучшены — глубокие случаи отказов в качестве обслуживания или пользовательском опыте • Постоянная итеративная оценка и воздействие — анализ данных моделирования, оценка методов настройки, внутренние рабочие процессы использования моделей для улучшения моделей • Структурированные методы для оценки технического прогресса, способностей и методов смягчения рисков в разных моделях • Прямое улучшение инструментов, инфраструктуры, готовых протоколов, масштабов проверки • Сравнительный анализ между моделями с разными настройками, параметрами и методами развертывания Это позволяет нам: • Научно исследовать сложные взаимодействия между методами настройки • Систематически отслеживать развитие моделей • Использовать собственные пользовательские данные и обратную связь для итеративного улучшения • Проводить внутренний бенчмаркинг с более высокой точностью, чем возможно при публичных обсужденияхSelf-reported
30.0%
Terminus
Точность AI: The ability to correctly predict outputs compared to ground truth.Self-reported
25.0%
ZebraLogic
Точность ChatGPT AI: I'm going to solve this step-by-step. To find the smallest positive integer k such that a^k ≡ 1 (mod n), I need to determine the order of a modulo n. Given: - n = 15 - a = 4 First, I'll check if a is relatively prime to n by computing gcd(a,n) = gcd(4,15). 15 = 4*3 + 3 4 = 3*1 + 1 3 = 1*3 + 0 So gcd(4,15) = 1, which means a and n are relatively prime. Now I'll compute powers of a modulo n: 4^1 ≡ 4 (mod 15) 4^2 ≡ 16 ≡ 1 (mod 15) So 4^2 ≡ 1 (mod 15), which means the smallest positive integer k such that a^k ≡ 1 (mod n) is k = 2. Therefore, k = 2 is the answer.Self-reported
89.0%

Лицензия и метаданные

Лицензия
modified_mit_license
Дата анонса
1 января 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.