Kimi-k1.5

Мультимодальная

Moonshot AI

Kimi 1.5 — мультимодальная языковая модель нового поколения, разработанная компанией Moonshot AI. Она использует передовое обучение с подкреплением (RL) и масштабируемое мультимодальное рассуждение, демонстрируя высочайшую производительность в задачах математики, программирования, компьютерного зрения и рассуждений с длинным контекстом.

Основные характеристики

Параметры

Контекст

Дата выпуска

20 января 2025 г.

Средний балл

81.7%

API документация Исследование Репозиторий

Временная шкала

Ключевые даты в истории модели

Анонс

20 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точное соответствие AI: Использует ранее полученную информацию для ответа на вопрос. Когда модель видит точную копию вопроса, который был в данных для обучения, она может его распознать и воспроизвести правильный ответ. Это предоставляет верхнюю границу оценки способностей модели, поскольку она может просто повторить запомненную информацию. Во многих случаях, когда модель демонстрирует высокую точность при оценивании, мы можем подозревать, что происходит точное соответствие. Естественно, использование точного соответствия затрудняет определение реальных аналитических способностей модели, поскольку модель может просто запоминать ответы, а не вычислять их. • Self-reported

87.4%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Pass@1 AI system performance is often evaluated by measuring the fraction of samples that are solved correctly on the first attempt. This captures whether the model is able to get the right answer right away, but does not allow the model to refine its solution through multiple attempts, which may be a more realistic measure of the model's usefulness for challenging problems that require exploration. To compute Pass@1, we run the model once on each test sample and measure the percentage of samples where the model's response produces the correct answer. Pass@1 is a straightforward benchmark metric that has been widely used in prior work to assess the reasoning and problem-solving abilities of large language models. AI: Pass@1 Производительность системы ИИ часто оценивается путем измерения доли задач, которые решаются правильно с первой попытки. Это показывает, способна ли модель получить правильный ответ сразу, но не позволяет модели улучшать свое решение через несколько попыток, что может быть более реалистичной мерой полезности модели для сложных задач, требующих исследовательского подхода. Для вычисления Pass@1 мы запускаем модель один раз на каждом тестовом примере и измеряем процент примеров, где ответ модели дает правильный результат. Pass@1 — это прямолинейная метрика оценки, которая широко использовалась в предыдущих работах для определения способностей больших языковых моделей к рассуждению и решению задач. • Self-reported

74.9%

MMMU

Pass@1 — метрика для оценки вероятности того, что модель решит задачу с первой попытки. Она особенно полезна для оценки способностей генеративной модели к написанию программного кода. Для расчета Pass@1 модель генерирует несколько (например, 100 или 200) решений одной и той же задачи, которые затем оцениваются на соответствие тестовым примерам. Вероятность Pass@1 рассчитывается с использованием неравенства: Pass@1 ≥ 1 - (1 - c/n)^n где n — общее количество сгенерированных решений, а c — количество решений, которые проходят все тесты. Если мы рассматриваем модель HumanEval, которая генерирует 100 различных решений для задачи программирования, и 40 из них проходят все тесты, тогда: Pass@1 ≥ 1 - (1 - 40/100)^100 = 1 - (1 - 0.4)^100 = 1 - 0.6^100 ≈ 1 - 10^(-22) ≈ 1 Это указывает на то, что модель почти наверняка решит задачу с первой попытки. • Self-reported

70.0%

Другие тесты

Специализированные бенчмарки

AIME 2024

Pass@1 Pass@1 — это метрика оценки производительности, использующая вероятностную выборку для измерения эффективности модели при решении задач, которые требуют значительных усилий для генерации кода и требуют нескольких попыток. Как это работает: 1. Модель генерирует несколько решений (обычно 200) для заданной проблемы кодирования. 2. Каждое решение оценивается по тестовым случаям. 3. Мы вычисляем вероятность того, что модель решит задачу с первой попытки, используя случайную выборку из сгенерированных решений. Pass@1 = Σ(решение i проходит тесты) / общее количество решений Эта метрика лучше отражает реальную производительность модели, чем метрики типа Pass@k, которые требуют, чтобы хотя бы одно из k решений было правильным. Pass@1 фокусируется на вероятности успеха с первой попытки, что важно для практического применения. Pass@1 часто используется в бенчмарках кодирования, таких как HumanEval и MBPP, для сравнения моделей, специализирующихся на генерации кода, таких как Codex и Code Llama. • Self-reported

77.5%

C-Eval

Точное соответствие AI-powered systems: LLMs can solve complex problems like a human expert would, by reasoning through them step-by-step. But how can we know if the final answer is correct? Problems in domains like math have exact answers, and we can check if the model's answer matches the correct one. Method details: This approach simply compares the model's final answer with the known correct answer. If they match exactly, the model is marked as correct. Advantages: - Simple to implement - Works well for problems with unique answers - Objective assessment with no human judgment required Limitations: - Very sensitive to formatting differences - May penalize valid alternative expressions or notations - Can't assess reasoning quality or alternative approaches - Often misses near-correct answers When to use: Best for problems with clear, unambiguous answers that can be standardized in form, like multiple choice questions or specific numerical answers. • Self-reported

88.3%

CLUEWSC

Точное совпадение AI: Метод начинает с поиска точного совпадения с закодированным ответом. Это быстрый и точный способ оценки, когда ответ однозначен, например, «1789» для года начала Французской революции. Если совпадение найдено, модель возвращает "correct", иначе продолжает проверку. • Self-reported

91.4%

IFEval

Точное соответствие AI: ChatGPT processes these math problems by analyzing the equations and solving them step by step, similar to how a human would. It identifies the mathematical concepts involved (like calculus, algebra, or geometry), applies relevant formulas and theorems, and works through the solution methodically. For example, when faced with an integral or differential equation, ChatGPT breaks down the problem into manageable parts, applies standard techniques like substitution or integration by parts, and carries out the calculations carefully to arrive at the final answer. The model can handle a wide range of mathematical tasks, from basic arithmetic to more complex problems involving multiple variables, though its performance on very advanced mathematics may vary. When solving problems, ChatGPT shows its work by explaining each step of the reasoning process, which helps users understand how it arrived at the solution. • Self-reported

87.2%

LiveCodeBench v5 24.12-25.2

Pass@1 Это базовая метрика оценки способности модели решать задачи, которая измеряет вероятность успеха, когда генерируется только один ответ. Метрика Pass@1 измеряет точность решения задачи, когда модель делает только одну попытку. Это прямой показатель эффективности, который требует от модели правильного решения с первого раза. Для расчета Pass@1 нам нужно оценить, верно ли выполнена каждая задача в одной попытке. Однако поскольку прямое измерение может быть затратным, часто используется Pass@k с k > 1 для получения несмещенной оценки Pass@1. Согласно работе Chen et al. (2021), мы можем оценить Pass@1, используя Pass@k, по формуле: Pass@1 ≈ Pass@k × (1 / k) Эта формула предполагает, что если модель генерирует k различных решений, и c из них верны, то вероятность того, что первое сгенерированное решение будет верным, приблизительно равна c/k. Pass@1 является важной метрикой, поскольку она отражает реальные сценарии использования, где пользователи обычно полагаются на первый ответ модели. • Self-reported

62.5%

MATH-500

Точное совпадение AI: ChatGPT-4o Reference: Exact Match Specific Information: - Test if the AI's answer exactly matches the reference answer. - Example: If reference = "42", AI answer = "42" would be correct, but AI answer = "forty-two" would be incorrect. - Useful for: Factual questions with definitive answers, calculations, dates, names. - Limitations: Strict matching doesn't account for semantically equivalent answers expressed differently. Scoring Protocol: 1 = Answer exactly matches the reference 0 = Answer doesn't exactly match the reference • Self-reported

96.2%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

20 января 2025 г.

Последнее обновление

19 июля 2025 г.