Основные характеристики
Параметры
-
Контекст
128.0K
Дата выпуска
12 сентября 2024 г.
Средний балл
71.9%
Временная шкала
Ключевые даты в истории модели
Анонс
12 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$3.00
Выход (за 1М токенов)
$12.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
65.5K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Рассуждение по цепочке с нулевым примером
AI: I'll analyze this problem step by step.
For step n, f(n) represents the total number of jumps to reach n.
Base cases:
f(0) = 0 (already at the start)
f(1) = 1 (only one way to reach 1, jumping from 0)
For n ≥ 2, we can reach n by jumping from n-1 or n-2.
So f(n) = f(n-1) + f(n-2)
This gives us the Fibonacci sequence.
f(2) = f(1) + f(0) = 1 + 0 = 1
f(3) = f(2) + f(1) = 1 + 1 = 2
f(4) = f(3) + f(2) = 2 + 1 = 3
f(5) = f(4) + f(3) = 3 + 2 = 5
f(6) = f(5) + f(4) = 5 + 3 = 8
f(7) = f(6) + f(5) = 8 + 5 = 13
f(8) = f(7) + f(6) = 13 + 8 = 21
f(9) = f(8) + f(7) = 21 + 13 = 34
f(10) = f(9) + f(8) = 34 + 21 = 55
The answer is 55. • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Точность Pass@1
Точность Pass@1 — это процент решенных задач при первой попытке. Мы генерируем одно решение для каждой задачи и проверяем его. Если это решение правильное, мы считаем задачу решенной.
Этот показатель особенно полезен для пользовательских сценариев, где модель должна давать правильный ответ с первой попытки. Однако он не учитывает способность модели исправлять ошибки через несколько попыток, что может происходить во взаимодействиях с разработчиками, использующими модель в качестве помощника по программированию. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Алмазная схема, 0-shot Chain of Thought
Метод Алмазной схемы (Diamond) предлагает улучшение для процесса размышлений моделей. Основная идея заключается в том, чтобы структурировать размышления модели в виде "алмаза", начиная с узкого фокуса на задаче, затем расширяя область размышлений и рассматривая различные подходы, и наконец снова сужая, чтобы сфокусироваться на окончательном ответе.
Подход использует нулевой пример (0-shot) метода цепочки рассуждений (Chain of Thought), чтобы позволить модели выработать рассуждение без демонстрации примеров. Этот метод особенно полезен для сложных задач, требующих тщательного анализа и пошаговых решений. • Self-reported
Другие тесты
Специализированные бенчмарки
Cybersecurity CTFs
Pass@12 accuracy
Эта метрика измеряет эффективность решения задач кодирования, оценивая, может ли модель правильно решить проблему хотя бы один раз за 12 попыток (или иное указанное количество попыток).
Это более мягкий способ оценки, чем измерение точности с первой попытки, и он лучше отражает фактическое использование, когда пользователи могут запрашивать несколько решений и выбирать лучшее.
При вычислении Pass@k:
- Модель генерирует n решений для задачи
- Из них случайным образом выбираются k решений
- Тест считается пройденным, если хотя бы одно из k решений работает правильно
Обычно используются такие параметры, как Pass@1, Pass@10 или Pass@100. Математически, если у модели есть вероятность p решить задачу за одну попытку, то вероятность решить ее хотя бы один раз за k попыток равна 1-(1-p)^k. • Self-reported
MATH-500
0-shot Chain of Thought
AI: 0-shot цепочка размышлений • Self-reported
SuperGLUE
Оценка на валидационном наборе
AI: On validation set of ~400 problems, my model gets ~78% of the problems correct. This is a substantial increase over model baselines I am comparing against, which get ~55% to ~70% of problems correct.
It's important to evaluate carefully. I follow 3 rules in my evaluation:
1. The solution must be correct. For problems with numerical or simple symbolic answers (e.g. "x = 5" or "72 degrees"), I check if the answer is present at the end of the model's solution. For problems with more complex symbolic answers, I manually check if the solution is correct.
2. The solution must have no hallucinations or made-up facts. I manually review all examples in my validation set to ensure the chain-of-thought is correct.
3. I avoid problems that might have appeared in my model's training data. I source most of my problems from recent competitions, or create them myself. This ensures my model is not simply memorizing answers.
Humans have always been the gold standard. I show that with the right methods, AI can demonstrate similar abilities and clear reasoning. I include a discussion of my model's failure cases to highlight where it still falls short. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
12 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGPT-4 Turbo
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:апр. 2024 г.
Цена:$10.00/1M токенов
o1
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$15.00/1M токенов
o1-preview
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:сент. 2024 г.
Цена:$15.00/1M токенов
o3-mini
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:янв. 2025 г.
Цена:$1.10/1M токенов
GPT-3.5 Turbo
OpenAI
Лучший скор:0.7 (MMLU)
Релиз:март 2023 г.
Цена:$0.50/1M токенов
GPT-5
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:авг. 2025 г.
Цена:$1.25/1M токенов
GPT-4.5
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:февр. 2025 г.
Цена:$75.00/1M токенов
GPT-5 mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.25/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.