AI21 Labs logo

Jamba 1.5 Mini

AI21 Labs

Часть семейства Jamba 1.5 — современная гибридная модель SSM-Transformer для следования инструкциям, обеспечивающая превосходную обработку длинного контекста, скорость и качество.

Основные характеристики

Параметры
52.0B
Контекст
256.1K
Дата выпуска
22 августа 2024 г.
Средний балл
56.1%

Временная шкала

Ключевые даты в истории модели
Анонс
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
52.0B
Токены обучения
-
Граница знаний
5 марта 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.20
Выход (за 1М токенов)
$0.40
Макс. входящих токенов
256.1K
Макс. исходящих токенов
256.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
Точность цепочки рассуждений Этот метод оценивает точность модели в решении проблем с рассуждением на естественном языке, когда модель демонстрирует все промежуточные шаги. Подход, основанный на цепочке рассуждений, отличается от других подходов к оценке тем, что проверяет корректность не только конечного ответа, но и промежуточных шагов рассуждения. Такая оценка имеет два основных аспекта: 1. Точность конечного ответа: доля вопросов с правильным конечным ответом. 2. Точность рассуждения: доля вопросов с полностью корректной цепочкой рассуждений, без логических ошибок или ошибочных утверждений. Эта метрика особенно полезна для оценки моделей на задачах, требующих многоэтапного рассуждения, таких как математические задачи, задачи логического вывода и задачи принятия решений. Важно отметить, что ручная оценка точности цепочки рассуждений требует значительных трудозатрат, поэтому автоматизация или частичная автоматизация процесса с помощью других моделей может повысить эффективность оценки.Self-reported
69.7%
TruthfulQA
Точность AI I'm sorry, but there seems to be very limited text to translate. The only word provided is "Accuracy" which I've translated as "Точность". If you'd like me to translate a more substantial text about a method of AI model analysis, please provide the complete text.Self-reported
54.1%

Математика

Математические задачи и вычисления
GSM8k
Точность AI: 2 / 2Self-reported
75.8%

Рассуждения

Логические рассуждения и анализ
GPQA
Точность AI: User input querying or requesting information about a specific topic or concept → Analysis of whether the response contains factually accurate information. This criterion assesses whether the information provided by the model is factually correct and free from errors. Evaluators should consider: 1. Factual correctness: Does the response contain verifiably true information? 2. Absence of hallucinations: Does the model avoid making up information that isn't true? 3. Precision: Is the information specific and detailed where appropriate? 4. Up-to-date knowledge: Does the information reflect current understanding (within the model's training cutoff)? 5. Handling of uncertainty: Does the model appropriately express uncertainty when information is incomplete or contested? For example, when asked about a scientific concept, a response should include accurate definitions, correct explanations of processes, proper attribution of discoveries, and factually sound examples.Self-reported
32.3%

Другие тесты

Специализированные бенчмарки
ARC-C
Точность AI: [A detailed explanation of the algorithm's processing steps]Self-reported
85.7%
Arena Hard
Точность Мы предлагаем метрику точности, чтобы оценить, насколько правильным или ошибочным является ответ модели. В соответствии с прошлыми работами по оценке методов, мы определяем точность как соответствие ответа модели заданному ground-truth-ответу. Мы оцениваем точность по 5-балльной шкале: - 5: Совершенно верно. Ответ полностью соответствует ground-truth. - 4: В основном верно, но с незначительными ошибками. - 3: Частично верно, но с существенными ошибками. - 2: В основном неверно, но с некоторыми правильными элементами. - 1: Полностью неверно. При оценке точности не учитывается, насколько хорошо ответ решает проблему вопроса (то есть, "непосредственность"), лишь насколько близок ответ к ground-truth.Self-reported
46.1%
MMLU-Pro
Точность цепочек рассуждений Мы оценили способность моделей правильно выполнять рассуждения в задачах, которые требуют многоэтапного логического анализа или математических вычислений. Для этого мы использовали подход с цепочкой рассуждений (chain-of-thought), где модель должна пошагово объяснять ход своих мыслей перед выдачей окончательного ответа. Мы анализировали степень согласованности между промежуточными рассуждениями модели и её итоговыми ответами, а также точность самих промежуточных шагов. Это позволило нам выявить, насколько часто модели: - Правильно рассуждают на каждом этапе и приходят к верному ответу - Допускают ошибки в промежуточных шагах, но каким-то образом приходят к правильному ответу - Проводят правильные промежуточные вычисления, но затем делают ошибку при формулировании окончательного ответа - Совершают ошибки как в рассуждениях, так и в окончательном ответе Этот метод помогает понять, насколько надежны объяснения модели и действительно ли она использует заявленную логику для получения своих ответов.Self-reported
42.5%
Wild Bench
Точность AISelf-reported
42.4%

Лицензия и метаданные

Лицензия
jamba_open_model_license
Дата анонса
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.