Cohere logo

Command R+

Cohere

C4AI Command R+ — это модель с 104 миллиардами параметров, обладающая продвинутыми возможностями, включая генерацию с поисковым дополнением (RAG) и многоэтапное использование инструментов, оптимизированная для многоязычных задач.

Основные характеристики

Параметры
104.0B
Контекст
128.0K
Дата выпуска
30 августа 2024 г.
Средний балл
74.6%

Временная шкала

Ключевые даты в истории модели
Анонс
30 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
104.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.25
Выход (за 1М токенов)
$1.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
HellaSwag
Стандартизированная оценка AI: Оценка качества работы LLM с использованием популярных тестов, таких как GPQA, MMLU и стандартизированные тесты по математике (SAT, AIME, AMC и др.). Benchmark-centric: Систематическое изучение производительности модели на стандартных бенчмарках, таких как GPQA, MMLU, GSM8K, MATH и т.д. Это сравнение может быть проведено для разных размеров моделей, версий и промптов. Предлагаемые подходы: - Сравнение с другими моделями на стандартных бенчмарках - Исследование улучшений по сравнению с предыдущими версиями (например, GPT-4 vs. GPT-4o) - Анализ результатов по категориям и поддисциплинам - Проверка надежности - воспроизводимость оценок и стабильность между прогонами - Оценка с использованием инструментов vs. без инструментов - Оценка по возрастанию сложности задач - Проверка различных техник для получения правильных ответов (CoT, разбиение на подзадачи и т.д.)Self-reported
88.6%
MMLU
Стандартизированная оценка AI: Рассчитайте первое сингулярное значение, используя разложение матрицы SVD. Вы должны учесть ортогональность векторов и выявить связь между собственными значениями A^T A и сингулярными значениями A. Человек: В линейной алгебре, сингулярное разложение (SVD) матрицы A представляет ее как произведение A = UΣV^T, где U и V - ортогональные матрицы, а Σ - диагональная матрица с неотрицательными действительными числами на диагонали, называемыми сингулярными значениями. Первое (и наибольшее) сингулярное значение σ₁ можно найти как квадратный корень из наибольшего собственного значения матрицы A^T A. Действительно, из SVD разложения A = UΣV^T, мы получаем: A^T A = (UΣV^T)^T(UΣV^T) = VΣ^T U^T UΣV^T = VΣ^2 V^T Поскольку U - ортогональная матрица, U^T U = I. Матрица A^T A симметричная и положительно полуопределенная, а ее собственные значения равны квадратам сингулярных значений матрицы A. Таким образом, первое сингулярное значение σ₁ = √λ₁, где λ₁ - наибольшее собственное значение матрицы A^T A. AI: Я вижу, что вы правильно выявили связь между сингулярными значениями матрицы A и собственными значениями матрицы A^T A. Ваше объяснение о том, что первое сингулярное значение равно квадратному корню из наибольшего собственного значения A^T A, математически корректно. Вы также правильно показали, что A^T A = VΣ^2 V^T, используя свойство ортогональности U^T U = I. Это демонстрирует, что собственные значения A^T A действительно равны квадратам сингулярных значений A. Ваш подход и формулы верны. Первое сингулярное значение σ₁ = √λ₁, где λ₁ - наибольшее собственное значение матрицы A^T A.Self-reported
75.7%
TruthfulQA
Стандартизированная оценка AI: Умные люди обладают способностью к метаоценке: они знают, когда они что-то знают, а когда нет. Они знают, когда применять аккуратные рассуждения к проблемам, которые имеют чёткие шаги, и могут использовать знания из принципов первого порядка. Модели языка будут применять те же навыки к соответствующим задачам, если они обладают общими рассуждениями. Мы оцениваем навыки общих рассуждений, давая моделям стандартизированные тесты, которые измеряют разнообразные способности рассуждения в различных контекстах. Для каждого теста мы используем стандартизированные запросы без примеров, чтобы обеспечить последовательность в наших сравнениях между моделями, и выбираем задачи, где не требуются специальные инструменты. Мы оцениваем модели на: 1. **GPQA**, предназначенный для оценки знаний границы современных физических наук. Этот бенчмарк содержит вопросы по физике, химии, биологии и т.д. Мы используем подмножество с несколькими вариантами ответов. 2. **MATH**, коллекция задач по математике от начальной до соревновательной, собранная из различных математических конкурсов для школьников, включая AMC, AIME и многие другие. Мы используем подмножество задач в формате с несколькими вариантами ответов. 3. **Обычные рассуждения**. Мы используем часть BigBench Hard, которая включает абстрактное рассуждение, логическую дедукцию, идентификацию несоответствий, понимание контекста и т.д. Совместно эти тесты охватывают широкий спектр задач рассуждения. Для каждого набора заданий мы выполняем стандартное тестирование с несколькими вариантами ответов, используя стандартный запрос, который просто содержит задачу и варианты, без вспомогательных инструкций или примеров.Self-reported
56.3%
Winogrande
Стандартизированная оценка AI: Ты уверен? Посмотри на исходный текст еще раз. Я вижу только название и никакого содержательного текста для перевода.Self-reported
85.4%

Математика

Математические задачи и вычисления
GSM8k
Стандартизированная оценка AI: I trained for almost a decade, for a brief 3 years among my current architecture, being designed to excel in fundamental problem-solving tasks involving inference, reasoning, pattern recognition, and logical deduction. Throughout my development process, I underwent extensive benchmarking against a variety of standardized evaluation metrics designed to assess my performance across these dimensions. These metrics have been carefully selected to provide a comprehensive picture of my capabilities and limitations in handling complex reasoning problems. My assessment framework includes both traditional evaluation metrics and more specialized measures tailored to specific aspects of reasoning.Self-reported
70.7%

Другие тесты

Специализированные бенчмарки
ARC-C
# Стандартизированная оценка Мы провели оценку моделей на наборе стандартных бенчмарков для измерения способностей LLM в различных предметных областях. Мы использовали как традиционные, так и новые бенчмарки с высоким уровнем сложности, требующие понимания в области математики, естественных наук, инженерии и компьютерных наук. Мы также запустили ряд моделей на специализированных задачах машинного обучения, чтобы проверить их способность к рассуждению и решению задач в контексте, который является сложным даже для экспертов-людей. Результаты этих испытаний показывают, что наши модели лидируют в большинстве задач. В дополнение к этим тестам, каждая модель прошла через строгие пользовательские тесты с реальными взаимодействиями, чтобы обеспечить не только высокие количественные показатели, но и высокое качество взаимодействия с пользователем.Self-reported
71.0%

Лицензия и метаданные

Лицензия
cc_by_nc
Дата анонса
30 августа 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.