Основные характеристики
Параметры
52.0B
Контекст
256.1K
Дата выпуска
22 августа 2024 г.
Средний балл
56.1%
Временная шкала
Ключевые даты в истории модели
Анонс
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
52.0B
Токены обучения
-
Граница знаний
5 марта 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.20
Выход (за 1М токенов)
$0.40
Макс. входящих токенов
256.1K
Макс. исходящих токенов
256.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Точность цепочки рассуждений
Этот метод оценивает точность модели в решении проблем с рассуждением на естественном языке, когда модель демонстрирует все промежуточные шаги. Подход, основанный на цепочке рассуждений, отличается от других подходов к оценке тем, что проверяет корректность не только конечного ответа, но и промежуточных шагов рассуждения. Такая оценка имеет два основных аспекта:
1. Точность конечного ответа: доля вопросов с правильным конечным ответом.
2. Точность рассуждения: доля вопросов с полностью корректной цепочкой рассуждений, без логических ошибок или ошибочных утверждений.
Эта метрика особенно полезна для оценки моделей на задачах, требующих многоэтапного рассуждения, таких как математические задачи, задачи логического вывода и задачи принятия решений.
Важно отметить, что ручная оценка точности цепочки рассуждений требует значительных трудозатрат, поэтому автоматизация или частичная автоматизация процесса с помощью других моделей может повысить эффективность оценки. • Self-reported
TruthfulQA
Точность
AI
I'm sorry, but there seems to be very limited text to translate. The only word provided is "Accuracy" which I've translated as "Точность". If you'd like me to translate a more substantial text about a method of AI model analysis, please provide the complete text. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
Точность
AI: 2 / 2 • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Точность
AI: User input querying or requesting information about a specific topic or concept → Analysis of whether the response contains factually accurate information.
This criterion assesses whether the information provided by the model is factually correct and free from errors. Evaluators should consider:
1. Factual correctness: Does the response contain verifiably true information?
2. Absence of hallucinations: Does the model avoid making up information that isn't true?
3. Precision: Is the information specific and detailed where appropriate?
4. Up-to-date knowledge: Does the information reflect current understanding (within the model's training cutoff)?
5. Handling of uncertainty: Does the model appropriately express uncertainty when information is incomplete or contested?
For example, when asked about a scientific concept, a response should include accurate definitions, correct explanations of processes, proper attribution of discoveries, and factually sound examples. • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
Точность
AI: [A detailed explanation of the algorithm's processing steps] • Self-reported
Arena Hard
Точность
Мы предлагаем метрику точности, чтобы оценить, насколько правильным или ошибочным является ответ модели. В соответствии с прошлыми работами по оценке методов, мы определяем точность как соответствие ответа модели заданному ground-truth-ответу. Мы оцениваем точность по 5-балльной шкале:
- 5: Совершенно верно. Ответ полностью соответствует ground-truth.
- 4: В основном верно, но с незначительными ошибками.
- 3: Частично верно, но с существенными ошибками.
- 2: В основном неверно, но с некоторыми правильными элементами.
- 1: Полностью неверно.
При оценке точности не учитывается, насколько хорошо ответ решает проблему вопроса (то есть, "непосредственность"), лишь насколько близок ответ к ground-truth. • Self-reported
MMLU-Pro
Точность цепочек рассуждений
Мы оценили способность моделей правильно выполнять рассуждения в задачах, которые требуют многоэтапного логического анализа или математических вычислений. Для этого мы использовали подход с цепочкой рассуждений (chain-of-thought), где модель должна пошагово объяснять ход своих мыслей перед выдачей окончательного ответа.
Мы анализировали степень согласованности между промежуточными рассуждениями модели и её итоговыми ответами, а также точность самих промежуточных шагов. Это позволило нам выявить, насколько часто модели:
- Правильно рассуждают на каждом этапе и приходят к верному ответу
- Допускают ошибки в промежуточных шагах, но каким-то образом приходят к правильному ответу
- Проводят правильные промежуточные вычисления, но затем делают ошибку при формулировании окончательного ответа
- Совершают ошибки как в рассуждениях, так и в окончательном ответе
Этот метод помогает понять, насколько надежны объяснения модели и действительно ли она использует заявленную логику для получения своих ответов. • Self-reported
Wild Bench
Точность
AI • Self-reported
Лицензия и метаданные
Лицензия
jamba_open_model_license
Дата анонса
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиDeepSeek R1 Distill Qwen 32B
DeepSeek
32.8B
Лучший скор:0.6 (GPQA)
Релиз:янв. 2025 г.
Цена:$0.12/1M токенов
QwQ-32B-Preview
Alibaba
32.5B
Лучший скор:0.7 (GPQA)
Релиз:нояб. 2024 г.
Цена:$1.20/1M токенов
DeepSeek R1 Distill Llama 70B
DeepSeek
70.6B
Лучший скор:0.7 (GPQA)
Релиз:янв. 2025 г.
Цена:$0.10/1M токенов
Qwen3 30B A3B
Alibaba
30.5B
Лучший скор:0.7 (GPQA)
Релиз:апр. 2025 г.
Цена:$0.10/1M токенов
Qwen2.5 72B Instruct
Alibaba
72.7B
Лучший скор:0.9 (HumanEval)
Релиз:сент. 2024 г.
Цена:$1.20/1M токенов
Mistral NeMo Instruct
Mistral AI
12.0B
Лучший скор:0.7 (MMLU)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
Mistral Small 3 24B Instruct
Mistral AI
24.0B
Лучший скор:0.8 (HumanEval)
Релиз:янв. 2025 г.
Цена:$0.10/1M токенов
Jamba 1.5 Large
AI21 Labs
398.0B
Лучший скор:0.9 (ARC)
Релиз:авг. 2024 г.
Цена:$2.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.