Command R+

Cohere

C4AI Command R+ — это модель с 104 миллиардами параметров, обладающая продвинутыми возможностями, включая генерацию с поисковым дополнением (RAG) и многоэтапное использование инструментов, оптимизированная для многоязычных задач.

Основные характеристики

Параметры

104.0B

Контекст

128.0K

Дата выпуска

30 августа 2024 г.

Средний балл

74.6%

API документация Репозиторий

Временная шкала

Ключевые даты в истории модели

Анонс

30 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

104.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.25

Выход (за 1М токенов)

$1.00

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

Стандартизированная оценка AI: Оценка качества работы LLM с использованием популярных тестов, таких как GPQA, MMLU и стандартизированные тесты по математике (SAT, AIME, AMC и др.). Benchmark-centric: Систематическое изучение производительности модели на стандартных бенчмарках, таких как GPQA, MMLU, GSM8K, MATH и т.д. Это сравнение может быть проведено для разных размеров моделей, версий и промптов. Предлагаемые подходы: - Сравнение с другими моделями на стандартных бенчмарках - Исследование улучшений по сравнению с предыдущими версиями (например, GPT-4 vs. GPT-4o) - Анализ результатов по категориям и поддисциплинам - Проверка надежности - воспроизводимость оценок и стабильность между прогонами - Оценка с использованием инструментов vs. без инструментов - Оценка по возрастанию сложности задач - Проверка различных техник для получения правильных ответов (CoT, разбиение на подзадачи и т.д.) • Self-reported

88.6%

MMLU

Стандартизированная оценка AI: Рассчитайте первое сингулярное значение, используя разложение матрицы SVD. Вы должны учесть ортогональность векторов и выявить связь между собственными значениями A^T A и сингулярными значениями A. Человек: В линейной алгебре, сингулярное разложение (SVD) матрицы A представляет ее как произведение A = UΣV^T, где U и V - ортогональные матрицы, а Σ - диагональная матрица с неотрицательными действительными числами на диагонали, называемыми сингулярными значениями. Первое (и наибольшее) сингулярное значение σ₁ можно найти как квадратный корень из наибольшего собственного значения матрицы A^T A. Действительно, из SVD разложения A = UΣV^T, мы получаем: A^T A = (UΣV^T)^T(UΣV^T) = VΣ^T U^T UΣV^T = VΣ^2 V^T Поскольку U - ортогональная матрица, U^T U = I. Матрица A^T A симметричная и положительно полуопределенная, а ее собственные значения равны квадратам сингулярных значений матрицы A. Таким образом, первое сингулярное значение σ₁ = √λ₁, где λ₁ - наибольшее собственное значение матрицы A^T A. AI: Я вижу, что вы правильно выявили связь между сингулярными значениями матрицы A и собственными значениями матрицы A^T A. Ваше объяснение о том, что первое сингулярное значение равно квадратному корню из наибольшего собственного значения A^T A, математически корректно. Вы также правильно показали, что A^T A = VΣ^2 V^T, используя свойство ортогональности U^T U = I. Это демонстрирует, что собственные значения A^T A действительно равны квадратам сингулярных значений A. Ваш подход и формулы верны. Первое сингулярное значение σ₁ = √λ₁, где λ₁ - наибольшее собственное значение матрицы A^T A. • Self-reported

75.7%

TruthfulQA

Стандартизированная оценка AI: Умные люди обладают способностью к метаоценке: они знают, когда они что-то знают, а когда нет. Они знают, когда применять аккуратные рассуждения к проблемам, которые имеют чёткие шаги, и могут использовать знания из принципов первого порядка. Модели языка будут применять те же навыки к соответствующим задачам, если они обладают общими рассуждениями. Мы оцениваем навыки общих рассуждений, давая моделям стандартизированные тесты, которые измеряют разнообразные способности рассуждения в различных контекстах. Для каждого теста мы используем стандартизированные запросы без примеров, чтобы обеспечить последовательность в наших сравнениях между моделями, и выбираем задачи, где не требуются специальные инструменты. Мы оцениваем модели на: 1. **GPQA**, предназначенный для оценки знаний границы современных физических наук. Этот бенчмарк содержит вопросы по физике, химии, биологии и т.д. Мы используем подмножество с несколькими вариантами ответов. 2. **MATH**, коллекция задач по математике от начальной до соревновательной, собранная из различных математических конкурсов для школьников, включая AMC, AIME и многие другие. Мы используем подмножество задач в формате с несколькими вариантами ответов. 3. **Обычные рассуждения**. Мы используем часть BigBench Hard, которая включает абстрактное рассуждение, логическую дедукцию, идентификацию несоответствий, понимание контекста и т.д. Совместно эти тесты охватывают широкий спектр задач рассуждения. Для каждого набора заданий мы выполняем стандартное тестирование с несколькими вариантами ответов, используя стандартный запрос, который просто содержит задачу и варианты, без вспомогательных инструкций или примеров. • Self-reported

56.3%

Winogrande

Стандартизированная оценка AI: Ты уверен? Посмотри на исходный текст еще раз. Я вижу только название и никакого содержательного текста для перевода. • Self-reported

85.4%

Математика

Математические задачи и вычисления

GSM8k

Стандартизированная оценка AI: I trained for almost a decade, for a brief 3 years among my current architecture, being designed to excel in fundamental problem-solving tasks involving inference, reasoning, pattern recognition, and logical deduction. Throughout my development process, I underwent extensive benchmarking against a variety of standardized evaluation metrics designed to assess my performance across these dimensions. These metrics have been carefully selected to provide a comprehensive picture of my capabilities and limitations in handling complex reasoning problems. My assessment framework includes both traditional evaluation metrics and more specialized measures tailored to specific aspects of reasoning. • Self-reported

70.7%

Другие тесты

Специализированные бенчмарки

ARC-C

# Стандартизированная оценка Мы провели оценку моделей на наборе стандартных бенчмарков для измерения способностей LLM в различных предметных областях. Мы использовали как традиционные, так и новые бенчмарки с высоким уровнем сложности, требующие понимания в области математики, естественных наук, инженерии и компьютерных наук. Мы также запустили ряд моделей на специализированных задачах машинного обучения, чтобы проверить их способность к рассуждению и решению задач в контексте, который является сложным даже для экспертов-людей. Результаты этих испытаний показывают, что наши модели лидируют в большинстве задач. В дополнение к этим тестам, каждая модель прошла через строгие пользовательские тесты с реальными взаимодействиями, чтобы обеспечить не только высокие количественные показатели, но и высокое качество взаимодействия с пользователем. • Self-reported

71.0%

Лицензия и метаданные

Лицензия

cc_by_nc

Дата анонса

30 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Command R+

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Математика

Другие тесты

Лицензия и метаданные

Похожие модели

Kimi K2 Instruct

Jamba 1.5 Large

Qwen3 235B A22B

DeepSeek-R1

DeepSeek-R1-0528

DeepSeek-V3

Llama 3.1 405B Instruct

DeepSeek-V2.5