Основные характеристики
Параметры
52.0B
Контекст
256.1K
Дата выпуска
22 августа 2024 г.
Средний балл
56.1%
Временная шкала
Ключевые даты в истории модели
Анонс
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
15 марта 2026 г.
Технические характеристики
Параметры
52.0B
Токены обучения
-
Граница знаний
5 марта 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.20
Выход (за 1М токенов)
$0.40
Макс. входящих токенов
256.1K
Макс. исходящих токенов
256.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Точность цепочки рассуждений
Этот метод оценивает точность модели в решении проблем с рассуждением на естественном языке, когда модель демонстрирует все промежуточные шаги. Подход, основанный на цепочке рассуждений, отличается от других подходов к оценке тем, что проверяет корректность не только конечного ответа, но и промежуточных шагов рассуждения. Такая оценка имеет два основных аспекта:
1. Точность конечного ответа: доля вопросов с правильным конечным ответом.
2. Точность рассуждения: доля вопросов с полностью корректной цепочкой рассуждений, без логических ошибок или ошибочных утверждений.
Эта метрика особенно полезна для оценки моделей на задачах, требующих многоэтапного рассуждения, таких как математические задачи, задачи логического вывода и задачи принятия решений.
Важно отметить, что ручная оценка точности цепочки рассуждений требует значительных трудозатрат, поэтому автоматизация или частичная автоматизация процесса с помощью других моделей может повысить эффективность оценки. • Self-reported
TruthfulQA
Точность
AI
I'm sorry, but there seems to be very limited text to translate. The only word provided is "Accuracy" which I've translated as "Точность". If you'd like me to translate a more substantial text about a method of AI model analysis, please provide the complete text. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
Точность
AI: 2 / 2 • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Точность
AI: User input querying or requesting information about a specific topic or concept → Analysis of whether the response contains factually accurate information.
This criterion assesses whether the information provided by the model is factually correct and free from errors. Evaluators should consider:
1. Factual correctness: Does the response contain verifiably true information?
2. Absence of hallucinations: Does the model avoid making up information that isn't true?
3. Precision: Is the information specific and detailed where appropriate?
4. Up-to-date knowledge: Does the information reflect current understanding (within the model's training cutoff)?
5. Handling of uncertainty: Does the model appropriately express uncertainty when information is incomplete or contested?
For example, when asked about a scientific concept, a response should include accurate definitions, correct explanations of processes, proper attribution of discoveries, and factually sound examples. • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
Точность
AI: [A detailed explanation of the algorithm's processing steps] • Self-reported
Arena Hard
Точность
Мы предлагаем метрику точности, чтобы оценить, насколько правильным или ошибочным является ответ модели. В соответствии с прошлыми работами по оценке методов, мы определяем точность как соответствие ответа модели заданному ground-truth-ответу. Мы оцениваем точность по 5-балльной шкале:
- 5: Совершенно верно. Ответ полностью соответствует ground-truth.
- 4: В основном верно, но с незначительными ошибками.
- 3: Частично верно, но с существенными ошибками.
- 2: В основном неверно, но с некоторыми правильными элементами.
- 1: Полностью неверно.
При оценке точности не учитывается, насколько хорошо ответ решает проблему вопроса (то есть, "непосредственность"), лишь насколько близок ответ к ground-truth. • Self-reported
MMLU-Pro
Точность цепочек рассуждений
Мы оценили способность моделей правильно выполнять рассуждения в задачах, которые требуют многоэтапного логического анализа или математических вычислений. Для этого мы использовали подход с цепочкой рассуждений (chain-of-thought), где модель должна пошагово объяснять ход своих мыслей перед выдачей окончательного ответа.
Мы анализировали степень согласованности между промежуточными рассуждениями модели и её итоговыми ответами, а также точность самих промежуточных шагов. Это позволило нам выявить, насколько часто модели:
- Правильно рассуждают на каждом этапе и приходят к верному ответу
- Допускают ошибки в промежуточных шагах, но каким-то образом приходят к правильному ответу
- Проводят правильные промежуточные вычисления, но затем делают ошибку при формулировании окончательного ответа
- Совершают ошибки как в рассуждениях, так и в окончательном ответе
Этот метод помогает понять, насколько надежны объяснения модели и действительно ли она использует заявленную логику для получения своих ответов. • Self-reported
Wild Bench
Точность
AI • Self-reported
Лицензия и метаданные
Лицензия
jamba_open_model_license
Дата анонса
22 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиDeepSeek R1 Distill Qwen 14B
DeepSeek
14.8B
Лучший скор:0.6 (GPQA)
Релиз:янв. 2025 г.
Llama-3.3 Nemotron Super 49B v1
NVIDIA
49.9B
Лучший скор:0.7 (GPQA)
Релиз:март 2025 г.
DeepSeek R1 Distill Llama 70B
DeepSeek
70.6B
Лучший скор:0.7 (GPQA)
Релиз:янв. 2025 г.
Цена:$0.10/1M токенов
DeepSeek R1 Distill Qwen 32B
DeepSeek
32.8B
Лучший скор:0.6 (GPQA)
Релиз:янв. 2025 г.
Цена:$0.12/1M токенов
Gemma 2 27B
27.2B
Лучший скор:0.8 (MMLU)
Релиз:июнь 2024 г.
Phi-3.5-MoE-instruct
Microsoft
60.0B
Лучший скор:0.9 (ARC)
Релиз:авг. 2024 г.
Magistral Small 2506
Mistral AI
24.0B
Лучший скор:0.7 (GPQA)
Релиз:июнь 2025 г.
Qwen2.5 14B Instruct
Alibaba
14.7B
Лучший скор:0.8 (HumanEval)
Релиз:сент. 2024 г.
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.