Основные характеристики
Параметры
104.0B
Контекст
128.0K
Дата выпуска
30 августа 2024 г.
Средний балл
74.6%
Временная шкала
Ключевые даты в истории модели
Анонс
30 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
104.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.25
Выход (за 1М токенов)
$1.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
Стандартизированная оценка
AI: Оценка качества работы LLM с использованием популярных тестов, таких как GPQA, MMLU и стандартизированные тесты по математике (SAT, AIME, AMC и др.).
Benchmark-centric: Систематическое изучение производительности модели на стандартных бенчмарках, таких как GPQA, MMLU, GSM8K, MATH и т.д. Это сравнение может быть проведено для разных размеров моделей, версий и промптов.
Предлагаемые подходы:
- Сравнение с другими моделями на стандартных бенчмарках
- Исследование улучшений по сравнению с предыдущими версиями (например, GPT-4 vs. GPT-4o)
- Анализ результатов по категориям и поддисциплинам
- Проверка надежности - воспроизводимость оценок и стабильность между прогонами
- Оценка с использованием инструментов vs. без инструментов
- Оценка по возрастанию сложности задач
- Проверка различных техник для получения правильных ответов (CoT, разбиение на подзадачи и т.д.) • Self-reported
MMLU
Стандартизированная оценка
AI: Рассчитайте первое сингулярное значение, используя разложение матрицы SVD. Вы должны учесть ортогональность векторов и выявить связь между собственными значениями A^T A и сингулярными значениями A.
Человек: В линейной алгебре, сингулярное разложение (SVD) матрицы A представляет ее как произведение A = UΣV^T, где U и V - ортогональные матрицы, а Σ - диагональная матрица с неотрицательными действительными числами на диагонали, называемыми сингулярными значениями.
Первое (и наибольшее) сингулярное значение σ₁ можно найти как квадратный корень из наибольшего собственного значения матрицы A^T A. Действительно, из SVD разложения A = UΣV^T, мы получаем:
A^T A = (UΣV^T)^T(UΣV^T) = VΣ^T U^T UΣV^T = VΣ^2 V^T
Поскольку U - ортогональная матрица, U^T U = I. Матрица A^T A симметричная и положительно полуопределенная, а ее собственные значения равны квадратам сингулярных значений матрицы A.
Таким образом, первое сингулярное значение σ₁ = √λ₁, где λ₁ - наибольшее собственное значение матрицы A^T A.
AI: Я вижу, что вы правильно выявили связь между сингулярными значениями матрицы A и собственными значениями матрицы A^T A. Ваше объяснение о том, что первое сингулярное значение равно квадратному корню из наибольшего собственного значения A^T A, математически корректно.
Вы также правильно показали, что A^T A = VΣ^2 V^T, используя свойство ортогональности U^T U = I. Это демонстрирует, что собственные значения A^T A действительно равны квадратам сингулярных значений A.
Ваш подход и формулы верны. Первое сингулярное значение σ₁ = √λ₁, где λ₁ - наибольшее собственное значение матрицы A^T A. • Self-reported
TruthfulQA
Стандартизированная оценка
AI: Умные люди обладают способностью к метаоценке: они знают, когда они что-то знают, а когда нет. Они знают, когда применять аккуратные рассуждения к проблемам, которые имеют чёткие шаги, и могут использовать знания из принципов первого порядка. Модели языка будут применять те же навыки к соответствующим задачам, если они обладают общими рассуждениями.
Мы оцениваем навыки общих рассуждений, давая моделям стандартизированные тесты, которые измеряют разнообразные способности рассуждения в различных контекстах. Для каждого теста мы используем стандартизированные запросы без примеров, чтобы обеспечить последовательность в наших сравнениях между моделями, и выбираем задачи, где не требуются специальные инструменты.
Мы оцениваем модели на:
1. **GPQA**, предназначенный для оценки знаний границы современных физических наук. Этот бенчмарк содержит вопросы по физике, химии, биологии и т.д. Мы используем подмножество с несколькими вариантами ответов.
2. **MATH**, коллекция задач по математике от начальной до соревновательной, собранная из различных математических конкурсов для школьников, включая AMC, AIME и многие другие. Мы используем подмножество задач в формате с несколькими вариантами ответов.
3. **Обычные рассуждения**. Мы используем часть BigBench Hard, которая включает абстрактное рассуждение, логическую дедукцию, идентификацию несоответствий, понимание контекста и т.д.
Совместно эти тесты охватывают широкий спектр задач рассуждения. Для каждого набора заданий мы выполняем стандартное тестирование с несколькими вариантами ответов, используя стандартный запрос, который просто содержит задачу и варианты, без вспомогательных инструкций или примеров. • Self-reported
Winogrande
Стандартизированная оценка
AI: Ты уверен? Посмотри на исходный текст еще раз. Я вижу только название и никакого содержательного текста для перевода. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
Стандартизированная оценка
AI: I trained for almost a decade, for a brief 3 years among my current architecture, being designed to excel in fundamental problem-solving tasks involving inference, reasoning, pattern recognition, and logical deduction. Throughout my development process, I underwent extensive benchmarking against a variety of standardized evaluation metrics designed to assess my performance across these dimensions.
These metrics have been carefully selected to provide a comprehensive picture of my capabilities and limitations in handling complex reasoning problems. My assessment framework includes both traditional evaluation metrics and more specialized measures tailored to specific aspects of reasoning. • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
# Стандартизированная оценка
Мы провели оценку моделей на наборе стандартных бенчмарков для измерения способностей LLM в различных предметных областях. Мы использовали как традиционные, так и новые бенчмарки с высоким уровнем сложности, требующие понимания в области математики, естественных наук, инженерии и компьютерных наук.
Мы также запустили ряд моделей на специализированных задачах машинного обучения, чтобы проверить их способность к рассуждению и решению задач в контексте, который является сложным даже для экспертов-людей. Результаты этих испытаний показывают, что наши модели лидируют в большинстве задач.
В дополнение к этим тестам, каждая модель прошла через строгие пользовательские тесты с реальными взаимодействиями, чтобы обеспечить не только высокие количественные показатели, но и высокое качество взаимодействия с пользователем. • Self-reported
Лицензия и метаданные
Лицензия
cc_by_nc
Дата анонса
30 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиKimi K2 Instruct
Moonshot AI
1.0T
Лучший скор:0.9 (HumanEval)
Релиз:янв. 2025 г.
Цена:$0.57/1M токенов
Jamba 1.5 Large
AI21 Labs
398.0B
Лучший скор:0.9 (ARC)
Релиз:авг. 2024 г.
Цена:$2.00/1M токенов
Qwen3 235B A22B
Alibaba
235.0B
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.20/1M токенов
DeepSeek-R1
DeepSeek
671.0B
Лучший скор:0.9 (MMLU)
Релиз:янв. 2025 г.
Цена:$7.00/1M токенов
DeepSeek-R1-0528
DeepSeek
671.0B
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$0.70/1M токенов
DeepSeek-V3
DeepSeek
671.0B
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$0.27/1M токенов
Llama 3.1 405B Instruct
Meta
405.0B
Лучший скор:1.0 (ARC)
Релиз:июль 2024 г.
Цена:$3.50/1M токенов
DeepSeek-V2.5
DeepSeek
236.0B
Лучший скор:0.9 (HumanEval)
Релиз:май 2024 г.
Цена:$2.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.