Codestral-22B

Mistral AI

Модель генерации кода с 22 миллиардами параметров, обученная на более чем 80 языках программирования, включая Python, Java, C, C++, JavaScript и Bash. Поддерживает как выполнение инструкций, так и функцию заполнения пропусков (FIM) для задач автодополнения и генерации кода.

Основные характеристики

Параметры

22.2B

Контекст

32.8K

Дата выпуска

29 мая 2024 г.

Средний балл

65.9%

API документация Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

29 мая 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

22.2B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.20

Выход (за 1М токенов)

$0.60

Макс. входящих токенов

32.8K

Макс. исходящих токенов

32.8K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

pass@1 Пропуск с первой попытки (pass@1) - это метрика, которая оценивает точность, когда модель имеет только одну попытку для решения задачи. Она измеряет долю ответов, которые модель решает правильно с первого раза, без возможности пересмотреть свое решение или предложить несколько ответов. Эта метрика особенно важна для оценки базовых способностей модели в контексте, когда пользователи ожидают надежных результатов с первой попытки, и когда нет возможности для нескольких итераций или возможности выбрать лучший ответ из нескольких сгенерированных вариантов. • Self-reported

81.1%

MBPP

pass@1 Вероятность того, что модель с первой попытки решит задачу или даст правильный ответ. В отличие от метрики точности, которая определяет правильность ответа модели в бинарном виде (верно/неверно), pass@1 учитывает вероятностное распределение ответов. Для задач с однозначным ответом или задач генерации программного кода pass@1 измеряет шанс, что модель даст верный ответ с первой попытки без необходимости повторных попыток или исправлений. Для вычисления pass@1 модель генерирует несколько независимых ответов на один и тот же вопрос. Если k из n сгенерированных ответов верны, то pass@1 = k/n. Этот подход позволяет оценить не только способность модели находить правильное решение, но и её уверенность в ответе. • Self-reported

78.2%

Другие тесты

Специализированные бенчмарки

CruxEval-O

pass@1 Проход@1 В этом базовом подходе модель просто делает одну попытку, без каких-либо инструментов, возможности повторения или проверки ответа. Это метод оценки "в одном проходе". Модель получает пример задания и дает единственный ответ. Для некоторых типов задач, таких как математические уравнения или головоломки, проход@1 может быть недостаточно эффективен из-за склонности LLM к ошибкам. Однако для других типов задач этот метод может дать приемлемые результаты. • Self-reported

51.3%

HumanEval-Average

Pass@1 - это метрика, оценивающая долю задач, которые модель решает с первой попытки. Она отражает вероятность того, что самый вероятный ответ, выданный моделью, является правильным. При вычислении Pass@1 модель генерирует один ответ на задачу, и если этот ответ верен, задача считается решенной. Это строгая метрика, так как она требует, чтобы модель была права с первой попытки, без возможности исправления или уточнения своего ответа. Pass@1 особенно полезна для оценки базовых способностей модели и точности ее предсказаний в сценариях, где пользователь полагается на первый ответ без дополнительных проверок. Это прямолинейная метрика, которая хорошо соотносится с практическим использованием в ситуациях, требующих немедленного и точного ответа. Для улучшения показателей Pass@1 модели часто обучаются выдавать более консервативные, но точные ответы, вместо рискованных догадок. • Self-reported

61.5%

HumanEvalFIM-Average

pass@1 В этой работе мы представляем метрику, называемую "pass@1", которая может использоваться для оценки качества ответов LLM на задачи программирования. Метрика рассчитывает, сколько задач может быть правильно решено с первой попытки. Для вычисления метрики pass@1 мы: 1. Генерируем ответ модели на задачу программирования 2. Оцениваем этот ответ на тестовых случаях 3. Определяем, проходит ли ответ все тесты Метрика pass@1 показывает долю задач, которые модель решила с первой попытки. Например, если модель правильно решила 75 из 100 задач с первой попытки, то pass@1 = 0.75 или 75%. В отличие от других метрик, таких как pass@k, которые позволяют модели делать несколько попыток и выбирать лучший результат, pass@1 оценивает способность модели генерировать правильный ответ с первого раза, что ближе к реальному использованию в практических сценариях. • Self-reported

91.6%

RepoBench

pass@1 AI-система пытается ответить на предложенный вопрос. Если она отвечает правильно с первой попытки, это засчитывается как успех (1), в противном случае - как неудача (0). Оценка pass@1 представляет собой долю вопросов, на которые система отвечает правильно с первой попытки. • Self-reported

34.0%

Spider

Успешное решение с первой попытки AI: Переведи следующий текст на русский язык. • Self-reported

63.5%

Лицензия и метаданные

Лицензия

mnpl_0_1

Дата анонса

29 мая 2024 г.

Последнее обновление

19 июля 2025 г.

Codestral-22B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Другие тесты

Лицензия и метаданные

Похожие модели

Mistral Small

Devstral Small 1.1

Mistral Small 3 24B Instruct

Mistral NeMo Instruct

Mistral Large 2

Llama 3.1 70B Instruct

Phi 4

Llama 3.3 70B Instruct