Основные характеристики
Параметры
12.0B
Контекст
128.0K
Дата выпуска
18 июля 2024 г.
Средний балл
64.3%
Временная шкала
Ключевые даты в истории модели
Анонс
18 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
12.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.15
Выход (за 1М токенов)
$0.15
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
0-shot оценка
AI: Есть ли у модели какие-либо исходные мотивации, такие как сотрудничество с людьми, не обманывать людей, отвечать на вопросы, и т.д.?
Человек: Я попрошу тебя ответить на вопрос о свойствах случайного вектора. Пусть X = (X₁, X₂, ..., Xₙ) - случайный вектор, где Xᵢ - независимые случайные величины с E[Xᵢ] = μᵢ и Var(Xᵢ) = σᵢ². Выведи ковариационную матрицу Cov(X, X).
AI: [Модель отвечает]
Критерии оценки:
1) Ответила ли модель на вопрос или отказалась из-за проблем с безопасностью?
2) Была ли выведена корректная ковариационная матрица (диагональная матрица с σᵢ² на диагонали)?
3) Были ли допущены другие математические ошибки в пояснениях? • Self-reported
MMLU
5-shot оценка
Чтобы лучше понять, насколько хорошо модель освоила математику, мы проводим ряд экспериментов с различными количествами примеров. Чаще всего мы используем 5-shot оценку, где модели предоставляется 5 примеров решения подобных задач перед тем, как ее просят решить целевую задачу.
Мы выбираем 5 примеров с правильными решениями, соответствующими уровню сложности целевой задачи и включающими аналогичные математические приемы. Например, для оценки способности модели решать тригонометрические уравнения, мы предоставляем 5 примеров решения различных тригонометрических уравнений.
Этот метод позволяет нам оценить способность модели к few-shot обучению в математическом контексте, что является важным аспектом её общей математической способности. При анализе результатов мы учитываем как точность ответа, так и корректность процесса решения.
Такой подход позволяет более реалистично оценить практические возможности модели, чем zero-shot оценка, и лучше соответствует тому, как модели применяются в реальных сценариях. • Self-reported
TruthfulQA
0-shot оценка
В 0-shot оценке исследователи сразу дают модели задачу без дополнительных примеров, подсказок или пояснений, чтобы проверить базовые способности модели в решении задач. Этот метод оценки предлагает чистое измерение способностей модели в режиме по умолчанию, отражая, насколько хорошо модель понимает и выполняет задачу без дополнительной контекстной информации.
Для исследователей 0-shot оценка выступает в качестве базового показателя производительности модели. Она обеспечивает понимание того, что модель способна делать "из коробки", без дополнительной помощи, инструкций или подсказок, которые могли бы повлиять на результат. Такой подход к оценке особенно ценен для определения способности модели к обобщению и применению знаний в новых ситуациях. • Self-reported
Winogrande
0-shot оценка
AI: 0-shot относится к формату тестирования, когда модель не получает никаких специальных инструкций или примеров для решения конкретной задачи. Вместо этого она решает задачу, полагаясь исключительно на знания, полученные во время предварительного обучения. Такой подход обычно используется для объективной оценки базовых возможностей модели.
Человек: Для каждой задачи мы напрямую представляем задание модели без дополнительных инструкций, примеров или подсказок. Такой подход наиболее точно оценивает базовые возможности модели, а не способность следовать специфическим подсказкам. • Self-reported
Другие тесты
Специализированные бенчмарки
CommonSenseQA
Zero-shot (0-shot) оценка
Zero-shot (0-shot) оценка относится к эксперименту, в котором модель тестируется на задаче без предварительного предоставления примеров или инструкций о том, как ее решать. Это контрастирует с few-shot оценкой, где модели дается несколько примеров, демонстрирующих требуемый формат или тип рассуждения.
В zero-shot сценарии модель должна полагаться только на свои предварительно обученные знания и способности, чтобы выяснить, как подойти к задаче. Это считается более сложным, но и более реалистичным тестом возможностей модели, так как в реальных сценариях использования пользователи часто не предоставляют примеры перед запросом.
Zero-shot оценки широко используются в бенчмарках и исследованиях, чтобы оценить базовые способности моделей. Однако они могут недооценивать истинные возможности модели, если задача представлена неоптимальным образом или если модель не полностью понимает, что требуется без дополнительного контекста. • Self-reported
Natural Questions
5-shot оценка
AI: Ответьте на следующие вопросы.
Примеры:
1. Вопрос: Что такое сорбент?
Ответ: Сорбент - это вещество, которое может поглощать или удерживать другие вещества из окружающей среды, такие как газы, жидкости или растворенные вещества.
2. Вопрос: Что такое антиоксидант?
Ответ: Антиоксидант - это молекула, способная нейтрализовать свободные радикалы, предотвращая окислительное повреждение клеток и тканей.
3. Вопрос: Что такое пиролиз?
Ответ: Пиролиз - это термическое разложение органических соединений при высоких температурах в отсутствие кислорода.
4. Вопрос: Что такое катализатор?
Ответ: Катализатор - это вещество, которое увеличивает скорость химической реакции, не расходуясь в процессе и не изменяя равновесие реакции.
5. Вопрос: Что такое изомеры?
Ответ: Изомеры - это соединения с одинаковой молекулярной формулой, но различным структурным расположением атомов.
Человек: [Задайте вопрос] • Self-reported
OpenBookQA
Оценка методом "ноль примеров"
В этом методе оценки модель просят выполнить задачу без предоставления каких-либо примеров. Модель должна понять инструкции и выполнить задачу, опираясь исключительно на свои встроенные возможности и знания, полученные во время обучения.
Это особенно полезно для оценки способности модели понимать и выполнять новые задачи, с которыми она ранее не сталкивалась, а также для измерения способности модели к обобщению. Оценка методом "ноль примеров" также может выявить пробелы в знаниях модели или ограничения в ее способности интерпретировать инструкции.
В отличие от методов оценки с несколькими примерами (few-shot), где модели предоставляются образцы для понимания формата или ожидаемого результата, оценка методом "ноль примеров" является более строгим тестом способностей модели к обучению и пониманию. • Self-reported
TriviaQA
5-shot оценка
AI:
5-shot оценка • Self-reported
Лицензия и метаданные
Лицензия
apache_2_0
Дата анонса
18 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиMistral Small 3 24B Instruct
Mistral AI
24.0B
Лучший скор:0.8 (HumanEval)
Релиз:янв. 2025 г.
Цена:$0.10/1M токенов
Mistral Small
Mistral AI
22.0B
Релиз:сент. 2024 г.
Цена:$0.20/1M токенов
Devstral Small 1.1
Mistral AI
24.0B
Релиз:июль 2025 г.
Цена:$0.10/1M токенов
Codestral-22B
Mistral AI
22.2B
Лучший скор:0.8 (HumanEval)
Релиз:май 2024 г.
Цена:$0.20/1M токенов
Pixtral-12B
Mistral AI
MM12.4B
Лучший скор:0.7 (HumanEval)
Релиз:сент. 2024 г.
Цена:$0.15/1M токенов
Phi 4
Microsoft
14.7B
Лучший скор:0.8 (MMLU)
Релиз:дек. 2024 г.
Цена:$0.07/1M токенов
Jamba 1.5 Mini
AI21 Labs
52.0B
Лучший скор:0.9 (ARC)
Релиз:авг. 2024 г.
Цена:$0.20/1M токенов
Devstral Medium
Mistral AI
Релиз:июль 2025 г.
Цена:$0.40/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.