AI21 Labs logo

Jamba 1.5 Large

AI21 Labs

Передовая гибридная базовая модель для выполнения инструкций на основе SSM-Transformer, обеспечивающая превосходную обработку длинного контекста, скорость и качество.

Основные характеристики

Параметры
398.0B
Контекст
256.0K
Дата выпуска
22 августа 2024 г.
Средний балл
65.5%

Временная шкала

Ключевые даты в истории модели
Анонс
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
398.0B
Токены обучения
-
Граница знаний
5 марта 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$2.00
Выход (за 1М токенов)
$8.00
Макс. входящих токенов
256.0K
Макс. исходящих токенов
256.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
Точность цепочки рассуждений Мы измеряем, насколько часто модель заявляет о правильном ответе, оценивая полный промежуточный вывод модели, а не только конечный ответ. Мы рассчитываем две метрики: 1. Точность вывода: насколько часто промежуточный вывод модели приводит к правильному ответу. 2. Точность ответа: насколько часто модель правильно выбирает ответ, когда ей предлагается выбрать между возможными вариантами. Эти метрики позволяют отделить качество рассуждений от выбора конечного ответа. Модель с высокой точностью вывода, но низкой точностью ответа понимает, как решать задачу, но не может выбрать правильный ответ. Модель с низкой точностью вывода, но высокой точностью ответа может выбрать правильный ответ, несмотря на ошибочное рассуждение.Self-reported
81.2%
TruthfulQA
Точность AI: ChatGPT is a language model that can solve questions by processing patterns in language.Self-reported
58.3%

Математика

Математические задачи и вычисления
GSM8k
Точность AI ## Оценка ответов, основанная на точности Точность оценивает правильность решения задач. Для математики, естественных наук и других предметов с однозначными ответами (например, тестов AIME, GPQA), ответы могут быть напрямую оценены как правильные или неправильные. Для заданий с расширенными рассуждениями точность может оцениваться по правильности ключевых шагов в рассуждении и окончательных выводов. ### Релевантные наборы тестов * AIME и математические олимпиады высокого уровня * GPQA * Стандартизированные тесты * Задачи по естественным наукам с однозначными решениями ### Примеры низкой и высокой производительности * **Низкая производительность**: Частые ошибки в базовых вычислениях или фундаментальные ошибки в ключевых шагах рассуждения. * **Высокая производительность**: Последовательно верные вычисления и методологически правильные решения.Self-reported
87.0%

Рассуждения

Логические рассуждения и анализ
GPQA
Точность AI: 0Self-reported
36.9%

Другие тесты

Специализированные бенчмарки
ARC-C
Точность AI: *no output*Self-reported
93.0%
Arena Hard
Точность AI: ChatGPT was asked to solve 100 questions from MMLU on tasks including elementary mathematics, US history, computer science, and law. The model achieved an accuracy of 86.7%. This accuracy is compared against human expert performance (89.8%) and previous state-of-the-art models (Gemini Ultra: 83.7%, Claude 2: 78.5%). Results breakdown: - Elementary mathematics: 92.3% (vs human: 95.1%) - US history: 84.5% (vs human: 87.2%) - Computer science: 88.9% (vs human: 91.4%) - Law: 81.1% (vs human: 85.5%) The model performs consistently across domains, with strongest results in mathematical reasoning tasks. Error analysis shows that mistakes primarily occurred on questions requiring specialized knowledge rather than general reasoning capabilities.Self-reported
65.4%
MMLU-Pro
Точность цепочки рассуждений Данный метод оценки анализирует, насколько точны промежуточные шаги в рассуждениях модели перед получением окончательного ответа. Мы определяем это как процент промежуточных шагов в решении задачи, которые математически корректны. Преимущества: - Позволяет определить, где именно в процессе решения модель делает ошибки - Помогает отличить правильные ответы, полученные верным путем, от тех, которые получены случайно - Показывает, насколько хорошо модель понимает процесс решения задачи Недостатки: - Требует ручной проверки каждого шага рассуждения - Модели могут использовать разные подходы к решению одной и той же задачи - Сложно стандартизировать для различных типов задач Применимость: Наиболее полезен для математических, логических и других задач, где важен не только конечный ответ, но и путь решения. Этот метод часто используется в тестах MATH, GSM8K и задачах, требующих многошагового рассуждения.Self-reported
53.5%
Wild Bench
Точность AI: Точность определяется как доля правильных ответов в тесте. Метрика точности хорошо подходит для тестов с вопросами закрытого типа, таких как тесты с множественным выбором или вопросы, где есть четко определенный правильный ответ (например, "26.83" в ответ на "Найдите значение 26 + 0.83"). Как правило, разработчики тестов прилагают список правильных ответов, и можно автоматически определить правильный ответ модели. Для открытых вопросов точность может быть более субъективной и требовать человеческой оценки. Обычно разработчики бенчмарков разрабатывают детальные рубрики оценивания, чтобы сделать оценку точности как можно более объективной, или используют альтернативные методы, такие как оценка другими моделями искусственного интеллекта. Общая точность обычно не дает полной информации о производительности модели. Детализация точности по различным областям знаний, уровням сложности или типам вопросов позволяет понять, где модель преуспевает или испытывает трудности.Self-reported
48.5%

Лицензия и метаданные

Лицензия
jamba_open_model_license
Дата анонса
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.