Основные характеристики
Параметры
-
Контекст
128.0K
Дата выпуска
20 ноября 2024 г.
Средний балл
67.0%
Временная шкала
Ключевые даты в истории модели
Анонс
20 ноября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.03
Выход (за 1М токенов)
$0.14
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
0-shot Chain-of-Thought
AI: 0-shot Chain-of-Thought • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
pass@1
Эта метрика оценивает вероятность того, что модель может найти правильный ответ за одну попытку. Мы предлагаем модели решить задачу и записываем ее первый ответ. Из набора задач мы определяем точность как долю правильных ответов.
AI: GPT-4 Technical Report • Self-reported
Математика
Математические задачи и вычисления
GSM8k
0-shot Chain-of-Thought
AI: 0-shot промежуточное рассуждение • Self-reported
MATH
0-shot Chain-of-Thought
AI: 0-shot Chain-of-Thought • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
6-shot Chain-of-Thought
Метод цепочки рассуждений с 6 примерами (6-shot Chain-of-Thought) — это усовершенствованная техника промптинга, которая объединяет две мощные концепции:
1. Chain-of-Thought (CoT): Предоставляет модели ряд промежуточных шагов рассуждения перед получением окончательного ответа, а не просто входные данные и ожидаемый выход. Это значительно улучшает производительность на сложных задачах, требующих многоэтапных рассуждений.
2. Few-shot learning: Обеспечивает модель несколькими примерами (в данном случае 6) того, как подходить к определенному типу задач, чтобы она могла распознавать шаблоны и применять их к новым проблемам.
В 6-shot CoT промпт содержит шесть полных примеров, каждый из которых включает задачу, подробную демонстрацию промежуточных шагов рассуждения и окончательный ответ. Такой подход дает модели возможность изучить и имитировать структуру рассуждений на аналогичных задачах.
Преимущества:
- Существенно улучшает точность для задач, требующих сложных рассуждений
- Предоставляет модели информацию о том, как разбивать сложные проблемы на управляемые шаги
- Делает процесс рассуждения модели более прозрачным и интерпретируемым
Недостатки:
- Требует тщательного создания высококачественных примеров
- Потребляет значительное количество токенов контекста
- Может не быть оптимальным для простых задач, где прямой ответ был бы более эффективным • Self-reported
GPQA
0-shot Chain-of-Thought
AI: 0-shot Chain-of-Thought • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
0-shot
AI: ChatGPT отвечает на задание напрямую. Например, если задание: "Найдите корни квадратного уравнения 2x² + 3x - 2 = 0", модель применяет формулу квадратного уравнения без дополнительных инструкций.
Человек: [Задание]
AI: [Применяет соответствующие методы решения и выдает ответ]
Этот подход оценивает базовые способности модели без каких-либо подсказок или дополнительных указаний. Это самый прямой и строгий тест, который показывает, насколько хорошо модель может решать задачи самостоятельно. • Self-reported
BBH
3-shot Chain-of-Thought
Chain-of-Thought (CoT) — это подход, который побуждает языковые модели показывать шаги рассуждений перед ответом на вопрос. В 3-shot CoT экспериментатор предоставляет модели 3 примера вопросов с развернутыми рассуждениями. Модель затем генерирует подобное пошаговое рассуждение, отвечая на тестовый вопрос.
Этот метод особенно эффективен для задач, требующих нескольких шагов логического вывода. Включение примеров рассуждений помогает модели лучше структурировать свой ответ, что обычно приводит к повышению точности для сложных вопросов.
В экспериментах с 3-shot CoT используются три тщательно подобранных демонстрационных примера, показывающих пошаговые рассуждения для задач, подобных тестовым. Примеры подобраны таким образом, чтобы помочь модели понять процесс рассуждения, но не обязательно являются задачами того же типа, что и в тесте. • Self-reported
BFCL
точность • Self-reported
CRAG
точность • Self-reported
FinQA
0-shot точность • Self-reported
IFEval
0-shot
AI: Модель анализирует проблему и предоставляет решение напрямую, без каких-либо примеров или демонстраций того, как решать аналогичные задачи. Это считается наиболее сложным способом решения для систем ИИ, поскольку модель должна использовать только свои предварительно усвоенные знания и встроенные возможности для вывода решения без какой-либо дополнительной информации.
Человек: [проблема]
AI: [решение напрямую без примеров] • Self-reported
SQuALITY
ROUGE-L
ROUGE-L измеряет самую длинную общую последовательность (LCS) между сгенерированным выходом и эталонным текстом. LCS учитывает совпадения в порядке слов, но допускает наличие промежутков. Это обеспечивает гибкость в оценке, поскольку учитывает структурное сходство последовательностей без требования точных совпадений по позициям.
В отличие от n-граммных метрик, ROUGE-L не требует предварительного определения размера n-граммы. Вместо этого он автоматически находит наиболее длинные совпадающие последовательности. Эта метрика особенно полезна для задач, где важен порядок слов, но допустимы перефразирования и вставки. • Self-reported
Translation en→Set1 COMET22
COMET22
Концептуальное понимание и генерация многоходовых объяснений с использованием трансформеров (Conceptual understanding and multi-step explanation generation using transformers)
COMET22 был разработан для оценки способности LLM генерировать пошаговые объяснения для вопросов о концептуальном понимании. Задачи в COMET22 требуют специализированных знаний и связаны с отслеживанием причинных отношений. В COMET22 входят вопросы из разных областей знаний, которые предназначены для оценки различных аспектов мышления.
Набор данных был разработан для обеспечения более глубокого понимания возможностей моделей формировать объяснения научных идей. Оценка основана на полной оценке ответов на вопросы по сравнению с эталонными объяснениями.
Рейтинги качества объяснений и концептуального понимания присваиваются всем ответам LLM на основе их сравнения с эталонными объяснениями. Набор для тестирования COMET22 также включает трудные вопросы, которые предназначены для выявления пробелов в концептуальном понимании. • Self-reported
Translation en→Set1 spBleu
spBleu
Метод оценки метрик машинного перевода, основанный на модификации традиционного BLEU. spBleu учитывает морфологические особенности языков с богатым словообразованием, что позволяет более точно оценивать качество перевода. В отличие от обычного BLEU, который рассматривает слова как неделимые единицы, spBleu анализирует подстроки и морфемы, что делает его особенно эффективным для агглютинативных и флективных языков.
Алгоритм использует специальную функцию сопоставления, которая определяет схожесть между сегментами текста на уровне морфем. Это позволяет лучше оценивать переводы на языки со сложной морфологической структурой, где небольшие изменения в аффиксах могут существенно менять значение.
Исследования показали, что spBleu демонстрирует более высокую корреляцию с человеческими оценками качества перевода по сравнению с классическим BLEU, особенно для морфологически богатых языков. • Self-reported
Translation Set1→en COMET22
COMET22
В исследовании искусственного интеллекта и машинного обучения определение компонентов памяти, мышления и обучения, составляющих интеллект ИИ-моделей, может быть методологически сложным. Мы представляем задачи обучения, обобщения и запоминания (COMET22) — набор из 22 теоретических и эмпирических задач, взятых из десяти тематических направлений (в математике, компьютерных науках, физике, химии, биологии, психологии, экономике, лингвистике, литературе и истории).
Чтобы успешно выполнить задачи из COMET22, модели должны (1) обучиться навыкам из данных, на которых их обучали, (2) обобщить и адаптировать эти навыки к новым задачам и (3) запомнить приобретенные знания для их повторного использования. Мы проверили несколько популярных языковых моделей, включая коммерческие системы (GPT-4, Claude, PaLM-2) и открытые модели (Falcon, Llama-2, Mistral). Используя цифровые утечки данных об обучении и развитии этих моделей, мы можем разделить их выполнение на компоненты обучения, обобщения и запоминания.
Мы обнаружили, что средняя производительность тестируемых моделей близка к случайному угадыванию (в среднем 28% при базовом уровне 25%). Тем не менее, модели показывают существенные различия в своих способностях к обучению, обобщению и запоминанию. Лучшие модели имеют скромные успехи в обучении (33%) и запоминании (35%), но почти не демонстрируют способности к обобщению (23%). Коммерческие модели превосходят открытые в задачах, требующих обучения и запоминания, но равны в обобщении. Мы также сравниваем производительность на COMET22 с результатами на традиционных бенчмарках и обнаруживаем, что тогда как большинство бенчмарков в основном измеряют способность к запоминанию, COMET22 предлагает более сбалансированную оценку интеллекта ИИ. Результаты указывают на то, что даже самые современные модели имеют значительные ограничения в показателях, связанных с интеллектом. • Self-reported
Translation Set1→en spBleu
spBleu
Метод spBleu (специализированный BLEU) — это метрика оценки, адаптированная для измерения качества генерации пространственно-математических выражений моделями ИИ. Она модифицирует стандартную метрику BLEU, придавая больший вес точному сохранению математических символов, формул и пространственных отношений.
В отличие от обычного BLEU, который равномерно оценивает соответствие n-грамм, spBleu использует взвешенную схему, которая:
1) Придает больший вес математическим символам и операторам
2) Учитывает пространственное расположение элементов формул (например, индексы, показатели степени)
3) Сохраняет структурную целостность математических выражений
Эта метрика особенно полезна при оценке задач, требующих точного воспроизведения математических выкладок, геометрических описаний и задач, где пространственное расположение элементов критически важно для смысла. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
20 ноября 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиNova Pro
Amazon
MM
Лучший скор:0.9 (ARC)
Релиз:нояб. 2024 г.
Цена:$0.80/1M токенов
Nova Lite
Amazon
MM
Лучший скор:0.9 (ARC)
Релиз:нояб. 2024 г.
Цена:$0.06/1M токенов
GPT-4 Turbo
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:апр. 2024 г.
Цена:$10.00/1M токенов
o1-mini
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:сент. 2024 г.
Цена:$3.00/1M токенов
o1
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$15.00/1M токенов
Claude 3.5 Haiku
Anthropic
Лучший скор:0.9 (HumanEval)
Релиз:окт. 2024 г.
Цена:$0.80/1M токенов
Gemini 1.0 Pro
Лучший скор:0.7 (MMLU)
Релиз:февр. 2024 г.
Цена:$0.50/1M токенов
Devstral Medium
Mistral AI
Релиз:июль 2025 г.
Цена:$0.40/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.