Основные характеристики
Параметры
22.2B
Контекст
32.8K
Дата выпуска
29 мая 2024 г.
Средний балл
65.9%
Временная шкала
Ключевые даты в истории модели
Анонс
29 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
22.2B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.20
Выход (за 1М токенов)
$0.60
Макс. входящих токенов
32.8K
Макс. исходящих токенов
32.8K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Программирование
Тесты на навыки программирования
HumanEval
pass@1
Пропуск с первой попытки (pass@1) - это метрика, которая оценивает точность, когда модель имеет только одну попытку для решения задачи. Она измеряет долю ответов, которые модель решает правильно с первого раза, без возможности пересмотреть свое решение или предложить несколько ответов.
Эта метрика особенно важна для оценки базовых способностей модели в контексте, когда пользователи ожидают надежных результатов с первой попытки, и когда нет возможности для нескольких итераций или возможности выбрать лучший ответ из нескольких сгенерированных вариантов. • Self-reported
MBPP
pass@1
Вероятность того, что модель с первой попытки решит задачу или даст правильный ответ. В отличие от метрики точности, которая определяет правильность ответа модели в бинарном виде (верно/неверно), pass@1 учитывает вероятностное распределение ответов.
Для задач с однозначным ответом или задач генерации программного кода pass@1 измеряет шанс, что модель даст верный ответ с первой попытки без необходимости повторных попыток или исправлений.
Для вычисления pass@1 модель генерирует несколько независимых ответов на один и тот же вопрос. Если k из n сгенерированных ответов верны, то pass@1 = k/n. Этот подход позволяет оценить не только способность модели находить правильное решение, но и её уверенность в ответе. • Self-reported
Другие тесты
Специализированные бенчмарки
CruxEval-O
pass@1
Проход@1
В этом базовом подходе модель просто делает одну попытку, без каких-либо инструментов, возможности повторения или проверки ответа. Это метод оценки "в одном проходе". Модель получает пример задания и дает единственный ответ.
Для некоторых типов задач, таких как математические уравнения или головоломки, проход@1 может быть недостаточно эффективен из-за склонности LLM к ошибкам. Однако для других типов задач этот метод может дать приемлемые результаты. • Self-reported
HumanEval-Average
Pass@1 - это метрика, оценивающая долю задач, которые модель решает с первой попытки. Она отражает вероятность того, что самый вероятный ответ, выданный моделью, является правильным.
При вычислении Pass@1 модель генерирует один ответ на задачу, и если этот ответ верен, задача считается решенной. Это строгая метрика, так как она требует, чтобы модель была права с первой попытки, без возможности исправления или уточнения своего ответа.
Pass@1 особенно полезна для оценки базовых способностей модели и точности ее предсказаний в сценариях, где пользователь полагается на первый ответ без дополнительных проверок. Это прямолинейная метрика, которая хорошо соотносится с практическим использованием в ситуациях, требующих немедленного и точного ответа.
Для улучшения показателей Pass@1 модели часто обучаются выдавать более консервативные, но точные ответы, вместо рискованных догадок. • Self-reported
HumanEvalFIM-Average
pass@1
В этой работе мы представляем метрику, называемую "pass@1", которая может использоваться для оценки качества ответов LLM на задачи программирования. Метрика рассчитывает, сколько задач может быть правильно решено с первой попытки.
Для вычисления метрики pass@1 мы:
1. Генерируем ответ модели на задачу программирования
2. Оцениваем этот ответ на тестовых случаях
3. Определяем, проходит ли ответ все тесты
Метрика pass@1 показывает долю задач, которые модель решила с первой попытки. Например, если модель правильно решила 75 из 100 задач с первой попытки, то pass@1 = 0.75 или 75%.
В отличие от других метрик, таких как pass@k, которые позволяют модели делать несколько попыток и выбирать лучший результат, pass@1 оценивает способность модели генерировать правильный ответ с первого раза, что ближе к реальному использованию в практических сценариях. • Self-reported
RepoBench
pass@1
AI-система пытается ответить на предложенный вопрос. Если она отвечает правильно с первой попытки, это засчитывается как успех (1), в противном случае - как неудача (0). Оценка pass@1 представляет собой долю вопросов, на которые система отвечает правильно с первой попытки. • Self-reported
Spider
Успешное решение с первой попытки
AI: Переведи следующий текст на русский язык. • Self-reported
Лицензия и метаданные
Лицензия
mnpl_0_1
Дата анонса
29 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиMistral Small
Mistral AI
22.0B
Релиз:сент. 2024 г.
Цена:$0.20/1M токенов
Devstral Small 1.1
Mistral AI
24.0B
Релиз:июль 2025 г.
Цена:$0.10/1M токенов
Mistral Small 3 24B Instruct
Mistral AI
24.0B
Лучший скор:0.8 (HumanEval)
Релиз:янв. 2025 г.
Цена:$0.10/1M токенов
Mistral NeMo Instruct
Mistral AI
12.0B
Лучший скор:0.7 (MMLU)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
Mistral Large 2
Mistral AI
123.0B
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$2.00/1M токенов
Phi 4
Microsoft
14.7B
Лучший скор:0.8 (MMLU)
Релиз:дек. 2024 г.
Цена:$0.07/1M токенов
Llama 3.3 70B Instruct
Meta
70.0B
Лучший скор:0.9 (HumanEval)
Релиз:дек. 2024 г.
Цена:$0.88/1M токенов
Llama 3.1 70B Instruct
Meta
70.0B
Лучший скор:0.9 (ARC)
Релиз:июль 2024 г.
Цена:$0.89/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.