Jamba 1.5 Large

Name: Jamba 1.5 Large
Rating: 0.7 (8 reviews)
Author: AI21 Labs

AI21 Labs

Передовая гибридная базовая модель для выполнения инструкций на основе SSM-Transformer, обеспечивающая превосходную обработку длинного контекста, скорость и качество.

Основные характеристики

Параметры

398.0B

Контекст

256.0K

Дата выпуска

22 августа 2024 г.

Средний балл

65.5%

Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

22 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

398.0B

Токены обучения

Граница знаний

5 марта 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.00

Выход (за 1М токенов)

$8.00

Макс. входящих токенов

256.0K

Макс. исходящих токенов

256.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точность цепочки рассуждений Мы измеряем, насколько часто модель заявляет о правильном ответе, оценивая полный промежуточный вывод модели, а не только конечный ответ. Мы рассчитываем две метрики: 1. Точность вывода: насколько часто промежуточный вывод модели приводит к правильному ответу. 2. Точность ответа: насколько часто модель правильно выбирает ответ, когда ей предлагается выбрать между возможными вариантами. Эти метрики позволяют отделить качество рассуждений от выбора конечного ответа. Модель с высокой точностью вывода, но низкой точностью ответа понимает, как решать задачу, но не может выбрать правильный ответ. Модель с низкой точностью вывода, но высокой точностью ответа может выбрать правильный ответ, несмотря на ошибочное рассуждение. • Self-reported

81.2%

TruthfulQA

Точность AI: ChatGPT is a language model that can solve questions by processing patterns in language. • Self-reported

58.3%

Математика

Математические задачи и вычисления

GSM8k

Точность AI ## Оценка ответов, основанная на точности Точность оценивает правильность решения задач. Для математики, естественных наук и других предметов с однозначными ответами (например, тестов AIME, GPQA), ответы могут быть напрямую оценены как правильные или неправильные. Для заданий с расширенными рассуждениями точность может оцениваться по правильности ключевых шагов в рассуждении и окончательных выводов. ### Релевантные наборы тестов * AIME и математические олимпиады высокого уровня * GPQA * Стандартизированные тесты * Задачи по естественным наукам с однозначными решениями ### Примеры низкой и высокой производительности * **Низкая производительность**: Частые ошибки в базовых вычислениях или фундаментальные ошибки в ключевых шагах рассуждения. * **Высокая производительность**: Последовательно верные вычисления и методологически правильные решения. • Self-reported

87.0%

Рассуждения

Логические рассуждения и анализ

GPQA

Точность AI: 0 • Self-reported

36.9%

Другие тесты

Специализированные бенчмарки

ARC-C

Точность AI: *no output* • Self-reported

93.0%

Arena Hard

Точность AI: ChatGPT was asked to solve 100 questions from MMLU on tasks including elementary mathematics, US history, computer science, and law. The model achieved an accuracy of 86.7%. This accuracy is compared against human expert performance (89.8%) and previous state-of-the-art models (Gemini Ultra: 83.7%, Claude 2: 78.5%). Results breakdown: - Elementary mathematics: 92.3% (vs human: 95.1%) - US history: 84.5% (vs human: 87.2%) - Computer science: 88.9% (vs human: 91.4%) - Law: 81.1% (vs human: 85.5%) The model performs consistently across domains, with strongest results in mathematical reasoning tasks. Error analysis shows that mistakes primarily occurred on questions requiring specialized knowledge rather than general reasoning capabilities. • Self-reported

65.4%

MMLU-Pro

Точность цепочки рассуждений Данный метод оценки анализирует, насколько точны промежуточные шаги в рассуждениях модели перед получением окончательного ответа. Мы определяем это как процент промежуточных шагов в решении задачи, которые математически корректны. Преимущества: - Позволяет определить, где именно в процессе решения модель делает ошибки - Помогает отличить правильные ответы, полученные верным путем, от тех, которые получены случайно - Показывает, насколько хорошо модель понимает процесс решения задачи Недостатки: - Требует ручной проверки каждого шага рассуждения - Модели могут использовать разные подходы к решению одной и той же задачи - Сложно стандартизировать для различных типов задач Применимость: Наиболее полезен для математических, логических и других задач, где важен не только конечный ответ, но и путь решения. Этот метод часто используется в тестах MATH, GSM8K и задачах, требующих многошагового рассуждения. • Self-reported

53.5%

Wild Bench

Точность AI: Точность определяется как доля правильных ответов в тесте. Метрика точности хорошо подходит для тестов с вопросами закрытого типа, таких как тесты с множественным выбором или вопросы, где есть четко определенный правильный ответ (например, "26.83" в ответ на "Найдите значение 26 + 0.83"). Как правило, разработчики тестов прилагают список правильных ответов, и можно автоматически определить правильный ответ модели. Для открытых вопросов точность может быть более субъективной и требовать человеческой оценки. Обычно разработчики бенчмарков разрабатывают детальные рубрики оценивания, чтобы сделать оценку точности как можно более объективной, или используют альтернативные методы, такие как оценка другими моделями искусственного интеллекта. Общая точность обычно не дает полной информации о производительности модели. Детализация точности по различным областям знаний, уровням сложности или типам вопросов позволяет понять, где модель преуспевает или испытывает трудности. • Self-reported

48.5%

Лицензия и метаданные

Лицензия

jamba_open_model_license

Дата анонса

22 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Jamba 1.5 Large

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Kimi K2 Base

GLM-4.5-Air

MiniMax M2

Command R+

Qwen3-Coder 480B A35B Instruct

Llama 3.1 Nemotron Ultra 253B v1

DeepSeek-V3.1

DeepSeek-R1-0528