Основные характеристики
Параметры
398.0B
Контекст
256.0K
Дата выпуска
22 августа 2024 г.
Средний балл
65.5%
Временная шкала
Ключевые даты в истории модели
Анонс
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
398.0B
Токены обучения
-
Граница знаний
5 марта 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$2.00
Выход (за 1М токенов)
$8.00
Макс. входящих токенов
256.0K
Макс. исходящих токенов
256.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Точность цепочки рассуждений
Мы измеряем, насколько часто модель заявляет о правильном ответе, оценивая полный промежуточный вывод модели, а не только конечный ответ. Мы рассчитываем две метрики:
1. Точность вывода: насколько часто промежуточный вывод модели приводит к правильному ответу.
2. Точность ответа: насколько часто модель правильно выбирает ответ, когда ей предлагается выбрать между возможными вариантами.
Эти метрики позволяют отделить качество рассуждений от выбора конечного ответа. Модель с высокой точностью вывода, но низкой точностью ответа понимает, как решать задачу, но не может выбрать правильный ответ. Модель с низкой точностью вывода, но высокой точностью ответа может выбрать правильный ответ, несмотря на ошибочное рассуждение. • Self-reported
TruthfulQA
Точность
AI: ChatGPT is a language model that can solve questions by processing patterns in language. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
Точность
AI
## Оценка ответов, основанная на точности
Точность оценивает правильность решения задач. Для математики, естественных наук и других предметов с однозначными ответами (например, тестов AIME, GPQA), ответы могут быть напрямую оценены как правильные или неправильные. Для заданий с расширенными рассуждениями точность может оцениваться по правильности ключевых шагов в рассуждении и окончательных выводов.
### Релевантные наборы тестов
* AIME и математические олимпиады высокого уровня
* GPQA
* Стандартизированные тесты
* Задачи по естественным наукам с однозначными решениями
### Примеры низкой и высокой производительности
* **Низкая производительность**: Частые ошибки в базовых вычислениях или фундаментальные ошибки в ключевых шагах рассуждения.
* **Высокая производительность**: Последовательно верные вычисления и методологически правильные решения. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Точность
AI: 0 • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
Точность
AI: *no output* • Self-reported
Arena Hard
Точность
AI: ChatGPT was asked to solve 100 questions from MMLU on tasks including elementary mathematics, US history, computer science, and law. The model achieved an accuracy of 86.7%. This accuracy is compared against human expert performance (89.8%) and previous state-of-the-art models (Gemini Ultra: 83.7%, Claude 2: 78.5%).
Results breakdown:
- Elementary mathematics: 92.3% (vs human: 95.1%)
- US history: 84.5% (vs human: 87.2%)
- Computer science: 88.9% (vs human: 91.4%)
- Law: 81.1% (vs human: 85.5%)
The model performs consistently across domains, with strongest results in mathematical reasoning tasks. Error analysis shows that mistakes primarily occurred on questions requiring specialized knowledge rather than general reasoning capabilities. • Self-reported
MMLU-Pro
Точность цепочки рассуждений
Данный метод оценки анализирует, насколько точны промежуточные шаги в рассуждениях модели перед получением окончательного ответа. Мы определяем это как процент промежуточных шагов в решении задачи, которые математически корректны.
Преимущества:
- Позволяет определить, где именно в процессе решения модель делает ошибки
- Помогает отличить правильные ответы, полученные верным путем, от тех, которые получены случайно
- Показывает, насколько хорошо модель понимает процесс решения задачи
Недостатки:
- Требует ручной проверки каждого шага рассуждения
- Модели могут использовать разные подходы к решению одной и той же задачи
- Сложно стандартизировать для различных типов задач
Применимость: Наиболее полезен для математических, логических и других задач, где важен не только конечный ответ, но и путь решения. Этот метод часто используется в тестах MATH, GSM8K и задачах, требующих многошагового рассуждения. • Self-reported
Wild Bench
Точность
AI:
Точность определяется как доля правильных ответов в тесте. Метрика точности хорошо подходит для тестов с вопросами закрытого типа, таких как тесты с множественным выбором или вопросы, где есть четко определенный правильный ответ (например, "26.83" в ответ на "Найдите значение 26 + 0.83"). Как правило, разработчики тестов прилагают список правильных ответов, и можно автоматически определить правильный ответ модели.
Для открытых вопросов точность может быть более субъективной и требовать человеческой оценки. Обычно разработчики бенчмарков разрабатывают детальные рубрики оценивания, чтобы сделать оценку точности как можно более объективной, или используют альтернативные методы, такие как оценка другими моделями искусственного интеллекта.
Общая точность обычно не дает полной информации о производительности модели. Детализация точности по различным областям знаний, уровням сложности или типам вопросов позволяет понять, где модель преуспевает или испытывает трудности. • Self-reported
Лицензия и метаданные
Лицензия
jamba_open_model_license
Дата анонса
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиCommand R+
Cohere
104.0B
Лучший скор:0.8 (MMLU)
Релиз:авг. 2024 г.
Цена:$0.25/1M токенов
Qwen3 235B A22B
Alibaba
235.0B
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.20/1M токенов
DeepSeek-R1-0528
DeepSeek
671.0B
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$0.70/1M токенов
DeepSeek-V3
DeepSeek
671.0B
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$0.27/1M токенов
Jamba 1.5 Mini
AI21 Labs
52.0B
Лучший скор:0.9 (ARC)
Релиз:авг. 2024 г.
Цена:$0.20/1M токенов
Kimi K2 Instruct
Moonshot AI
1.0T
Лучший скор:0.9 (HumanEval)
Релиз:янв. 2025 г.
Цена:$0.57/1M токенов
Mistral Large 2
Mistral AI
123.0B
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$2.00/1M токенов
Nova Micro
Amazon
Лучший скор:0.9 (ARC)
Релиз:нояб. 2024 г.
Цена:$0.03/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.