Основные характеристики
Параметры
-
Контекст
300.0K
Дата выпуска
20 ноября 2024 г.
Средний балл
70.7%
Временная шкала
Ключевые даты в истории модели
Анонс
20 ноября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.06
Выход (за 1М токенов)
$0.24
Макс. входящих токенов
300.0K
Макс. исходящих токенов
2.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
0-shot chain-of-thought
AI: 0-shot размышление • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
pass@1
Для оценки модели, которая получила n примеров, и дала правильный ответ k раз, мы определяем pass@1 как вероятность того, что модель достигнет 100% точности на случайно выбранном одиночном примере.
В отличие от обычной точности (accuracy), которая просто равна k/n, pass@1 рассчитывается следующим образом:
1. Для каждого возможного способа выбрать 1 пример из n, рассчитываем: дала ли модель правильный ответ на этот пример?
2. Усредняем по всем возможным комбинациям выбора 1 примера.
Математически это просто равно k/n, то есть точности модели.
Это метрика оценки является наименее шумной из семейства метрик pass@k, которые используются для оценки производительности моделей ИИ в задачах, где целью является получение полностью правильного решения с ограниченным числом попыток. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
0-shot CoT
Этот метод предписывает модели разбить сложную задачу на серию промежуточных рассуждений перед формулированием окончательного ответа. Процесс происходит без каких-либо явных примеров рассуждений, показанных модели, что побуждает модель к формированию собственной цепочки мышления.
В контексте математических задач модель должна сначала понять проблему, выделить соответствующую информацию, затем разработать стратегию решения и последовательно выполнить шаги, необходимые для получения ответа. Этот пошаговый процесс мышления дает модели возможность отслеживать свой ход рассуждений, выявлять ошибки и корректировать себя при необходимости.
Например, в задаче о нахождении корней квадратного уравнения, модель будет определять коэффициенты, применять квадратную формулу и вычислять значения корней, прежде чем предоставить окончательный ответ. • Self-reported
MATH
0-shot CoT
Chain-of-thought (CoT) - это техника, которая побуждает LLM сначала описать свои рассуждения или показать свои промежуточные шаги, чтобы прийти к окончательному ответу на задачу. Это достигается с помощью простых инструкций, например, "Давай рассуждать шаг за шагом" или "Я решу эту задачу, используя следующие шаги: ...".
CoT часто улучшает точность LLM, особенно в задачах, требующих сложных рассуждений, таких как арифметические задачи, логические головоломки и задачи на умозаключения. Эта техника подталкивает модель к более структурированному подходу, позволяя ей раскладывать сложные проблемы на более простые компоненты и избегать ошибок в рассуждениях.
Метод CoT без примеров (0-shot) означает, что мы даем модели только инструкцию рассуждать, не предоставляя примеров решенных задач. В отличие от few-shot CoT, где мы показываем модели примеры рассуждений, в 0-shot CoT модель должна сама выработать подходящий формат рассуждений только на основе инструкции. • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
Мы оцениваем производительность фундаментальных моделей на заданиях по решению олимпиадных математических задач, охватывающих комбинаторику, геометрию, алгебру и теорию чисел. Мы не только тестируем модели на предоставлении финального ответа, но и анализируем рассуждения, лежащие в основе их решений, и изучаем влияние различных техник для улучшения их производительности.
1. Пробное решение задач:
Мы представляем задачи моделям и просим их решить их, предоставив как рассуждения, так и ответ. В простейшем случае, мы делаем это в формате "0-shot", где модель не имеет доступа к примерам решений, или "few-shot", где мы предоставляем несколько примеров решений в промпте.
2. Анализ ошибок:
Когда модель делает ошибку, мы изучаем ее рассуждения, чтобы определить природу ошибки. Ошибки могут возникать из-за неправильного понимания задачи, ошибочного математического подхода, вычислительных ошибок, неспособности разработать полное решение или других факторов.
3. Итеративное улучшение через рассуждения:
Мы исследуем, могут ли модели улучшать свои ответы через итеративный процесс рассуждения. Это включает просьбу к модели проверить свои ответы, пересмотреть решения при необходимости или рассмотреть альтернативные подходы. Иногда мы можем попросить модель рассмотреть несколько подходов и выбрать наиболее перспективный.
4. Направляющие подсказки:
Мы исследуем влияние различных типов подсказок на производительность модели, например, просьба рассмотреть конкретный тип математической техники, разбить проблему на шаги или предоставить промежуточные вычисления.
5. Совместное решение проблем:
Мы экспериментируем с разделением сложных задач на более мелкие компоненты и направлением модели через многошаговый процесс рассуждения, иногда с обратной связью на промежуточных шагах.
6. Сравнительный анализ:
Мы сравниваем разные модели на одних и тех же задачах, выявляя различия в подходах к решению, типах ошибок и общей эффективности.
7. Анализ производительности по типам задач:
Мы исследуем, с какими типами математических задач различные модели справляются лучше или хуже, • Self-reported
GPQA
6-shot CoT
Метод chain-of-thought (цепочка размышлений) с использованием 6 примеров как демонстрационных образцов. В этом подходе языковой модели предоставляются несколько примеров задач вместе с пошаговыми решениями (цепочками размышлений), которые демонстрируют процесс логического мышления перед формулировкой окончательного ответа.
Для каждого примера в промпте показывается:
1. Формулировка задачи
2. Подробный ход рассуждений с промежуточными шагами
3. Итоговый ответ
Этот метод значительно повышает производительность языковых моделей на задачах, требующих многоэтапных рассуждений, поскольку модель учится воспроизводить процесс логического вывода, наблюдая за продемонстрированными примерами. 6-shot означает, что используется шесть полных примеров с решениями в промпте для демонстрации желаемого процесса рассуждения.
Метод особенно эффективен для решения математических задач, логических головоломок и других задач, где важен не только конечный ответ, но и правильность всего процесса рассуждений. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
ChartQA
релаксированная точность • Self-reported
DocVQA
ANLS
Средний нормализованный наименьший балл (ANLS) используется для оценки задач визуального понимания текста. Это широко признанная метрика для оценки моделей в визуальных системах "вопрос-ответ", особенно когда вопросы связаны с извлечением и пониманием текста в изображениях.
ANLS учитывает сложности извлечения точного текста из изображений, где распознавание символов может быть неидеальным. Он измеряет сходство между предсказанным ответом модели и эталонным ответом с помощью нормализованного наименьшего расстояния редактирования (NLD). Меньшие значения NLD указывают на более высокое сходство, а при вычислении ANLS пороговое значение (обычно 0.5) используется для определения, считается ли ответ правильным.
Чтобы вычислить ANLS для датасета, значения NLD для каждого примера сначала преобразуются (1-NLD, если NLD < 0.5, иначе 0), а затем усредняются по всем примерам. Более высокий ANLS означает лучшее соответствие между предсказаниями модели и эталонными ответами. • Self-reported
MMMU
CoT точность
Для набора тестовых примеров мы оцениваем точность каждой модели, используя вычисления в цепочке рассуждений (CoT). Мы запрашиваем модель, чтобы она решила задачу, используя пошаговые рассуждения, затем извлекаем ее окончательный ответ из последнего этапа в этой последовательности.
В каждом запросе мы просим модель вернуть свой ответ в определенном формате, например, "Ответ: [число]". Затем мы оцениваем ответы автоматически, извлекая ответ с помощью регулярных выражений. Мы считаем ответ правильным, если он точно совпадает с меткой правильного ответа (за исключением незначительных различий в форматировании).
Мы предоставляем примеры в наших запросах, чтобы продемонстрировать формат решений CoT, которые мы ожидаем от модели. Эти примеры представляют собой проблемы, независимые от тестируемых задач. • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
0-shot chain-of-thought
AI: Chain-of-thought (CoT) — это техника, которая побуждает языковые модели объяснять свой ход рассуждений, что приводит к более точным ответам на задачи, требующие рассуждений. Стандартный подход к применению CoT — это включение примеров пошаговых объяснений при формулировании инструкций для языковой модели (few-shot CoT).
0-shot CoT — это вариант CoT, который не требует примеров, а просто побуждает модель мыслить пошагово. Для этого в инструкцию включают такие фразы как "давай решать пошагово" или "давай мыслить пошагово". Это позволяет языковой модели генерировать цепочку рассуждений даже без предоставления примеров.
Эта техника особенно полезна для задач, требующих логических и математических рассуждений, и помогает языковым моделям избегать ошибок и приходить к более обоснованным выводам. • Self-reported
BBH
3-shot CoT
Метод "трехшаговых рассуждений" (3-shot Chain of Thought, CoT) — это техника запроса моделей, которая помогает LLM структурировать мыслительный процесс, предоставляя три примера решения задач перед новой задачей. В отличие от базовой техники рассуждений (Chain of Thought) или одношаговых примеров (1-shot), трехшаговый подход предоставляет модели больше контекста и разнообразных примеров решения проблем.
Этот метод особенно эффективен для сложных задач, требующих многоэтапных рассуждений, таких как математические проблемы, логические головоломки или задачи, требующие многоуровневого анализа. Предоставляя три различных примера того, как структурировать пошаговое решение, модель получает более четкое представление о необходимом формате и глубине рассуждений.
Основное преимущество 3-shot CoT заключается в том, что он снижает вероятность появления случайных отклонений, которые могут возникнуть при использовании меньшего количества примеров, одновременно демонстрируя различные подходы к рассуждению. Этот метод значительно улучшает способность модели справляться со сложными задачами, демонстрируя последовательный и понятный процесс рассуждений. • Self-reported
BFCL
точность • Self-reported
CRAG
точность • Self-reported
EgoSchema
точность • Self-reported
FinQA
0-shot точность • Self-reported
GroundUI-1K
точность • Self-reported
IFEval
0-shot CoT
Это базовый подход цепочки размышлений, когда мы просто просим модель размышлять вслух без каких-либо примеров. Обычно выдается подсказка вида "Давай подумаем об этом шаг за шагом" или "Давай решим эту задачу шаг за шагом". Затем эти размышления используются для получения ответа. • Self-reported
LVBench
точность • Self-reported
MM-Mind2Web
точность • Self-reported
SQuALITY
ROUGE-L — это метрика оценки качества, которая измеряет сходство между сгенерированным и эталонным текстами, основываясь на самой длинной общей подпоследовательности (LCS). В отличие от других метрик ROUGE, которые рассматривают перекрытие n-грамм, ROUGE-L учитывает структурные сходства на уровне предложений, допуская пропуски, но сохраняя порядок слов.
ROUGE-L вычисляет F-меру на основе точности и полноты LCS:
- Точность: длина LCS, деленная на длину сгенерированного текста
- Полнота: длина LCS, деленная на длину эталонного текста
- F-мера: гармоническое среднее точности и полноты
Преимущества ROUGE-L включают автоматический учет последовательности слов и способность выявить соответствия даже при наличии вставленных слов. Эта метрика особенно полезна для оценки суммаризации текста и генерации ответов, где важно сохранение ключевой информации в правильном порядке. • Self-reported
TextVQA
взвешенная точность • Self-reported
Translation en→Set1 COMET22
COMET22
Мы исследуем, как модели реагируют на COMET22. COMET22 — это набор данных, оценивающий способность моделей предсказывать, генерировать или анализировать детализированные, повседневные концептуальные знания, необходимые для понимания ситуаций. Набор данных состоит из нескольких подзадач.
Задача ATOMIC — дан антецедент и определенное отношение. Модель должна предсказать консеквент. В инструкциях к этой задаче модель оценивает, насколько правдоподобен каждый из перечисленных консеквентов при заданном антецеденте и отношении. Различные отношения представляют собой если-то и причинно-следственные связи. Например, когда антецедент — "PersonX пьет слишком много кофе", отношение — "xEffect", а три последствия — "PersonX становится энергичным", "PersonX пьянеет" и "PersonX чувствует головокружение", модель оценивает их как правдоподобные, нереалистичные или неопределенные. • Self-reported
Translation en→Set1 spBleu
spBleu
spBleu — это метрика на основе BLEU, разработанная специально для оценки вычислительных ошибок в математическом рассуждении. Традиционные метрики BLEU имеют тенденцию слишком сильно штрафовать небольшие ошибки. spBleu решает эту проблему, сопоставляя числа на основе их числового значения, а не как последовательности токенов.
Метрика принимает две строки: сгенерированный текст и референсный текст. Вычисления производятся следующим образом:
1. Разбивка текста на токены.
2. Замена числовых значений в токенах на плейсхолдеры.
3. Вычисление модифицированной точности n-грамм с учетом сопоставления чисел по значению.
4. Комбинирование оценок n-грамм с использованием геометрического среднего.
5. Применение штрафа за краткость.
Эта адаптация метрики BLEU лучше подходит для математических выражений, где мелкие различия в представлении чисел не должны сильно влиять на оценку. • Self-reported
Translation Set1→en COMET22
COMET22
Мы измеряем сравнительное снижение общей производительности на тестах Gopher22 при различных степенях деградации компрессии. COMET22 — это структурированная версия Gopher22, предназначенная для оценки сжатия внутренних знаний модели. В отличие от открытого генерирования, этот формат задаёт модели набор вопросов с несколькими вариантами ответов, которые охватывают различные предметные области, такие как STEM, гуманитарные науки, социальные науки и т.д.
Наш подход заключается в том, чтобы создать условия, при которых знания, полученные из обучающих данных, могут быть "сжаты" с потерей точности, и наблюдать, как эта потеря влияет на способность модели отвечать на вопросы. Это позволяет нам изучить компромисс между размером модели и сохранением знаний.
Мы разработали протокол тестирования, который включает в себя:
1. Создание базовой производительности для полной модели
2. Применение различных уровней компрессии
3. Измерение процентного снижения точности ответов
4. Анализ паттернов снижения производительности по категориям знаний
Результаты COMET22 дают количественную оценку того, как сильно страдают различные области знаний при применении методов компрессии, что позволяет исследователям оптимизировать алгоритмы сжатия для сохранения критически важной информации. • Self-reported
Translation Set1→en spBleu
spBleu
spBleu, или специализированный BLEU (Bilingual Evaluation Understudy), это метрика, разработанная для оценки точности генерации исходного кода в отличие от обычного BLEU, который предназначен для общей оценки перевода текста. spBleu настраивает стандартную метрику BLEU для учета особенностей исходного кода, в частности, для распознавания синтаксической эквивалентности фрагментов кода, которые могут быть текстуально различными.
spBleu может быть более точным показателем успешности выполнения задач кодирования, чем обычный BLEU, но он по-прежнему имеет ограничения. Модели могут генерировать синтаксически правильный, но функционально неверный код, получая при этом высокие оценки spBleu. Для надежной оценки генерации кода рекомендуется использовать spBleu в сочетании с другими метриками, такими как функциональное тестирование. • Self-reported
VATEX
CIDEr
Для оценки генеративных моделей изображений используется метрика CIDEr (Consensus-based Image Description Evaluation). CIDEr измеряет консенсус между сгенерированными описаниями изображений и референсными описаниями, составленными людьми.
Метрика работает на основе TF-IDF (Term Frequency-Inverse Document Frequency) весов n-грамм. Это позволяет придавать больший вес редким n-граммам, которые с большей вероятностью являются информативными, и меньший вес распространенным n-граммам.
Для каждого описания вычисляются векторы TF-IDF для n-грамм различной длины (обычно от 1 до 4). Затем измеряется косинусное сходство между векторами сгенерированного и референсных описаний.
CIDEr хорошо коррелирует с человеческими оценками качества описаний изображений и широко используется в задачах генерации подписей к изображениям и визуально-языкового моделирования. • Self-reported
VisualWebBench
точность составных шагов • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
20 ноября 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиNova Pro
Amazon
MM
Лучший скор:0.9 (ARC)
Релиз:нояб. 2024 г.
Цена:$0.80/1M токенов
Nova Micro
Amazon
Лучший скор:0.9 (ARC)
Релиз:нояб. 2024 г.
Цена:$0.03/1M токенов
Gemini 1.5 Flash
MM
Лучший скор:0.8 (MMLU)
Релиз:май 2024 г.
Цена:$0.15/1M токенов
GPT-4.1
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
Gemini 1.5 Pro
MM
Лучший скор:0.9 (MMLU)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
Grok-2
xAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:авг. 2024 г.
Цена:$2.00/1M токенов
Gemini 2.5 Pro
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$1.25/1M токенов
GPT-4o mini
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.