Mistral AI logo

Codestral-22B

Mistral AI

Модель генерации кода с 22 миллиардами параметров, обученная на более чем 80 языках программирования, включая Python, Java, C, C++, JavaScript и Bash. Поддерживает как выполнение инструкций, так и функцию заполнения пропусков (FIM) для задач автодополнения и генерации кода.

Основные характеристики

Параметры
22.2B
Контекст
32.8K
Дата выпуска
29 мая 2024 г.
Средний балл
65.9%

Временная шкала

Ключевые даты в истории модели
Анонс
29 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
22.2B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.20
Выход (за 1М токенов)
$0.60
Макс. входящих токенов
32.8K
Макс. исходящих токенов
32.8K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
HumanEval
pass@1 Пропуск с первой попытки (pass@1) - это метрика, которая оценивает точность, когда модель имеет только одну попытку для решения задачи. Она измеряет долю ответов, которые модель решает правильно с первого раза, без возможности пересмотреть свое решение или предложить несколько ответов. Эта метрика особенно важна для оценки базовых способностей модели в контексте, когда пользователи ожидают надежных результатов с первой попытки, и когда нет возможности для нескольких итераций или возможности выбрать лучший ответ из нескольких сгенерированных вариантов.Self-reported
81.1%
MBPP
pass@1 Вероятность того, что модель с первой попытки решит задачу или даст правильный ответ. В отличие от метрики точности, которая определяет правильность ответа модели в бинарном виде (верно/неверно), pass@1 учитывает вероятностное распределение ответов. Для задач с однозначным ответом или задач генерации программного кода pass@1 измеряет шанс, что модель даст верный ответ с первой попытки без необходимости повторных попыток или исправлений. Для вычисления pass@1 модель генерирует несколько независимых ответов на один и тот же вопрос. Если k из n сгенерированных ответов верны, то pass@1 = k/n. Этот подход позволяет оценить не только способность модели находить правильное решение, но и её уверенность в ответе.Self-reported
78.2%

Другие тесты

Специализированные бенчмарки
CruxEval-O
pass@1 Проход@1 В этом базовом подходе модель просто делает одну попытку, без каких-либо инструментов, возможности повторения или проверки ответа. Это метод оценки "в одном проходе". Модель получает пример задания и дает единственный ответ. Для некоторых типов задач, таких как математические уравнения или головоломки, проход@1 может быть недостаточно эффективен из-за склонности LLM к ошибкам. Однако для других типов задач этот метод может дать приемлемые результаты.Self-reported
51.3%
HumanEval-Average
Pass@1 - это метрика, оценивающая долю задач, которые модель решает с первой попытки. Она отражает вероятность того, что самый вероятный ответ, выданный моделью, является правильным. При вычислении Pass@1 модель генерирует один ответ на задачу, и если этот ответ верен, задача считается решенной. Это строгая метрика, так как она требует, чтобы модель была права с первой попытки, без возможности исправления или уточнения своего ответа. Pass@1 особенно полезна для оценки базовых способностей модели и точности ее предсказаний в сценариях, где пользователь полагается на первый ответ без дополнительных проверок. Это прямолинейная метрика, которая хорошо соотносится с практическим использованием в ситуациях, требующих немедленного и точного ответа. Для улучшения показателей Pass@1 модели часто обучаются выдавать более консервативные, но точные ответы, вместо рискованных догадок.Self-reported
61.5%
HumanEvalFIM-Average
pass@1 В этой работе мы представляем метрику, называемую "pass@1", которая может использоваться для оценки качества ответов LLM на задачи программирования. Метрика рассчитывает, сколько задач может быть правильно решено с первой попытки. Для вычисления метрики pass@1 мы: 1. Генерируем ответ модели на задачу программирования 2. Оцениваем этот ответ на тестовых случаях 3. Определяем, проходит ли ответ все тесты Метрика pass@1 показывает долю задач, которые модель решила с первой попытки. Например, если модель правильно решила 75 из 100 задач с первой попытки, то pass@1 = 0.75 или 75%. В отличие от других метрик, таких как pass@k, которые позволяют модели делать несколько попыток и выбирать лучший результат, pass@1 оценивает способность модели генерировать правильный ответ с первого раза, что ближе к реальному использованию в практических сценариях.Self-reported
91.6%
RepoBench
pass@1 AI-система пытается ответить на предложенный вопрос. Если она отвечает правильно с первой попытки, это засчитывается как успех (1), в противном случае - как неудача (0). Оценка pass@1 представляет собой долю вопросов, на которые система отвечает правильно с первой попытки.Self-reported
34.0%
Spider
Успешное решение с первой попытки AI: Переведи следующий текст на русский язык.Self-reported
63.5%

Лицензия и метаданные

Лицензия
mnpl_0_1
Дата анонса
29 мая 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.