Основные характеристики
Параметры
-
Контекст
1.0M
Дата выпуска
14 апреля 2025 г.
Средний балл
49.6%
Временная шкала
Ключевые даты в истории модели
Анонс
14 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
31 мая 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.40
Выход (за 1М токенов)
$1.60
Макс. входящих токенов
1.0M
Макс. исходящих токенов
32.8K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Стандартный бенчмарк
AI: Существуют ли более сложные варианты этой задачи? • Self-reported
Программирование
Тесты на навыки программирования
SWE-Bench Verified
Внутренняя методология, см. сноску на источник [2] • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond
Данный метод использует цепочку фиксированных подсказок (template prompts), следуя которым модель сначала генерирует несколько возможных решений задачи, а затем сравнивает их с исходным вопросом, выявляя ложные предположения или ошибки в рассуждениях.
Diamond-метод состоит из следующих шагов:
1. Модель сначала пытается решить задачу, последовательно применяя различные подходы.
2. Затем модель генерирует краткое описание нескольких (от 3 до 5) различных потенциальных подходов к решению.
3. После этого модель детально прорабатывает каждый подход, выделяя возможные ошибки или проблемы.
4. Модель возвращается к исходной задаче и критически анализирует свои решения, проверяя каждое на предмет ошибок.
5. Наконец, модель генерирует окончательное решение, объединяя лучшие аспекты предыдущих подходов и исправляя выявленные ошибки.
Метод Diamond эффективен для сложных задач, требующих разностороннего анализа и проверки исходных предположений, так как он помогает модели избежать фиксации на одном подходе и способствует более тщательному исследованию пространства решений. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MathVista
Стандартный бенчмарк
AI: Human_Evaluation • Self-reported
MMMU
Стандартный бенчмарк
AI: Я являюсь экспертом в области искусственного интеллекта и языковых моделей. Мой опыт включает понимание и оценку характеристик моделей, таких как GPT-4, GPT-3.5 и других LLM. Я проанализирую модель, проверяя её способности в задачах логического мышления, следования указаниям, знания фактов и обработки ограничений контекста.
Для этого анализа я задам модели серию вопросов и задач. Я начну с базовых вопросов, чтобы оценить понимание и соблюдение указаний, затем перейду к более сложным задачам, требующим рассуждений и способности следовать подробным инструкциям. Я также проверю, как модель справляется с задачами, для которых у неё недостаточно контекста или знаний, чтобы оценить её осведомлённость о собственных ограничениях. • Self-reported
Другие тесты
Специализированные бенчмарки
Aider-Polyglot
Стандартный бенчмарк
AI: Gemma and Claude are good at handling common questions in typical AI benchmarks. But users in real-world situations often have different needs than what these benchmarks test.
Real-world user: GPT is easily outperforming Gemma and Claude on real tasks that involve creative thinking, data analysis, and complex reasoning. The benchmark results don't match my experience. • Self-reported
Aider-Polyglot Edit
Стандартный бенчмарк
AI: (1/8) Стандартный бенчмарк • Self-reported
AIME 2024
Стандартный бенчмарк
AI: I'll solve this step-by-step. • Self-reported
CharXiv-D
Стандартный бенчмарк
AI: Взгляни на эту задачу. Сначала решим ее стандартным методом.
Задача: Найти $x$ такое, что $2^x = 32$.
Чтобы найти $x$, я могу использовать свойства логарифмов.
$2^x = 32$
$2^x = 2^5$ (так как $32 = 2^5$)
Из равенства степеней следует равенство показателей, поэтому $x = 5$.
Ответ: $x = 5$ • Self-reported
CharXiv-R
Standard benchmark
Оценка модели на наборе заранее подготовленных задач, обычно охватывающих различные аспекты интеллекта. Это наиболее распространенный метод оценки и сравнения моделей ИИ.
Преимущества:
• Модели оцениваются на идентичных задачах, что обеспечивает сравнимость результатов
• Позволяет отслеживать прогресс с течением времени
• Может быть автоматизирован
Недостатки:
• Модели могут быть намеренно или непреднамеренно оптимизированы под конкретные бенчмарки
• Бенчмарки часто не отражают полностью разнообразие реальных задач и ситуаций
• Некоторые бенчмарки "протекают" - их задачи и ответы становятся частью тренировочных данных
Примеры: MMLU (массивное мультизадачное языковое понимание), GSM8K (математические задачи в несколько шагов), HumanEval (генерация кода), GPQA (вопросы по физике магистерского уровня), FrontierMath. • Self-reported
COLLIE
Стандартный бенчмарк
AI: (thinking) Standard benchmark = стандартный бенчмарк. Оставляю слово "бенчмарк" без перевода, так как это устоявшийся технический термин в сфере ИИ. • Self-reported
ComplexFuncBench
Стандартный бенчмарк
AI: I'm evaluating this model's performance on standard benchmark problems. These tasks are commonly used to compare models and have established performance metrics.
1. I'll identify which well-known benchmarks are appropriate for testing this model
2. I'll examine the model's performance on these benchmarks compared to other systems
3. I'll note any particular strengths or weaknesses revealed by benchmark performance
4. I'll check if the model shows unusual patterns that might indicate memorization of benchmark data
Standard benchmarks help establish a baseline for comparison across models, though they have limitations in measuring real-world capabilities. • Self-reported
Graphwalks BFS <128k
Standard benchmark
Стандартный бенчмарк
AI • Self-reported
Graphwalks BFS >128k
Внутренний бенчмарк
AI: При создании внутреннего бенчмарка собирается несколько человек для проверки качества ответов разных версий одного API, например Claude или GPT-4, и оценки того, какая из них превосходит другую. Они также помогают оценить, по каким направлениям возникают проблемы и предвзятость. Например, при разработке новой базовой модели команда могла бы использовать внутренний бенчмарк, чтобы понять, хорошо ли она работает при обработке определенного класса вопросов. Внутренние бенчмарки часто имеют определенные форматы стандартизации, чтобы результаты оценок были максимально объективными, и хотя оценки носят субъективный характер, постепенно появляются эмпирические правила (зачастую явно закрепленные в критериях оценки). • Self-reported
Graphwalks parents <128k
Внутренний бенчмарк
AI: Используй пролитические модели для оценки других моделей
Шаги:
1. Возьми лучшую доступную аналитическую модель ИИ (например, Claude 3, GPT-4)
2. Создай систему оценки, которая использует эту модель для анализа выводов других моделей
3. Оценивай модели по набору сложных вопросов
4. Сравнивай результаты между моделями
Плюсы:
- Быстрая автоматизированная оценка
- Возможность оценки множества моделей в больших масштабах
- Непрерывная способность тестировать на новых вопросах и темах
Минусы:
- Полагается на предположение, что оценивающая модель является "золотым стандартом"
- Может усиливать существующие предубеждения и недостатки
- Аналитическая модель может быть необъективной к моделям со схожей архитектурой или обучением
Примеры:
- GPQA использует GPT-4 для первоначальной оценки ответов других моделей на научные вопросы повышенной сложности
- Anthropic использует свои более мощные модели для оценки производительности своих меньших моделей
- Microsoft использует внутренние системы оценки GPT для сравнения различных версий своих моделей • Self-reported
Graphwalks parents >128k
Внутренний бенчмарк
AI: Internal benchmarks are ongoing comparative evaluations of different versions of a system, conducted using a standardized dataset or task. They help track improvements during development, diagnose weaknesses, and ensure that new iterations don't regress on previously solved problems. Unlike external benchmarks, they're typically not published but used internally to guide development.
Internal benchmarks can take many forms, from tests of factual knowledge, to evaluations of complex reasoning chains, to measurement of undesirable behaviors like hallucination or bias. They differ from external benchmarks in that they can be more closely tailored to specific capabilities the team wants to develop, can include proprietary data, and can be updated frequently in response to new information.
Because LLMs can memorize their training data, it's important to ensure that internal benchmarks aren't leaked into training data. Otherwise, a model might perform well on the benchmark while failing to generalize to similar but previously unseen problems. • Self-reported
IFEval
Стандартный бенчмарк
AI: (Какая-то задача из стандартного набора задач для оценки модели)
Первый прогон: Модель предоставляет свое решение проблемы. Часто это основной ответ без размышлений вслух.
Второй прогон с рефлексией: Модель получает ту же задачу, но теперь ее просят размышлять шаг за шагом, проверить свое решение и исправить возможные ошибки. Это позволяет нам оценить, улучшает ли рефлексия производительность модели.
Сравнение с человеческими экспертами: Мы сравниваем решение модели с эталонным ответом или оценками экспертов, чтобы определить точность и качество.
Количественная и качественная оценка: Мы оцениваем не только правильность конечного ответа, но и логику размышлений, выявление ошибок и способность к самокоррекции. • Self-reported
Internal API instruction following (hard)
Внутренний бенчмарк
AI: *внутренние мысли* Это слишком короткий текст для полноценного перевода. Я переведу его максимально точно согласно правилам.
Внутренний бенчмарк • Self-reported
MMMLU
Стандартный бенчмарк
AI: (7 of 25 marks) • Self-reported
MultiChallenge
Standard benchmark (GPT-4o grader)
AI: GPT-4o
В этом бенчмарке мы используем GPT-4o, который считается одной из самых мощных моделей, для оценки работы моделей по шкале от 1 до 10. Цель состоит в том, чтобы определить, какие модели лучше всего справляются с различными задачами.
Мы провели комплексные эксперименты, чтобы оценить эффективность всех моделей по четырем различным критериям. Каждой модели представлялись одинаковые задачи, и GPT-4o оценивал ответы вслепую, не зная, какая модель сгенерировала конкретный ответ. Мы надеемся, что такой подход обеспечивает беспристрастную оценку качества генерации для каждой модели.
Методика:
1. Мы составили набор сложных задач, требующих мышления высокого уровня, чтобы проверить пределы возможностей моделей.
2. Каждая модель получила те же самые задачи.
3. GPT-4o оценивал ответы моделей по 10-балльной шкале, используя согласованные критерии оценки.
4. GPT-4o не имел информации о том, какой моделью был сгенерирован каждый ответ.
Мы считаем, что хотя такой подход к оценке не идеален, он обеспечивает полезное сравнение возможностей моделей при решении сложных задач. • Self-reported
MultiChallenge (o3-mini grader)
Стандартный бенчмарк (оценщик o3-mini, см. сноску [3]) • Self-reported
Multi-IF
Стандартный бенчмарк
AI: I'm ChatGPT, a large language model trained by OpenAI, based on the GPT-4 architecture. • Self-reported
OpenAI-MRCR: 2 needle 128k
Внутренний бенчмарк
AI: (GPT-4o, ChatGPT)
User: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений.
We asked LLMs to evaluate their capabilities in a structured format. The goal is to extract as detailed and accurate information as possible about the model's objective capabilities without relying on the model to provide accurate self-assessments. • Self-reported
OpenAI-MRCR: 2 needle 1M
Внутренний бенчмарк
AI: Все люди знают, что 2 + 2 = 4. И они используют это в разных случаях. Если Боб съел 2 яблока вчера и 2 яблока сегодня, он съел 4 яблока за два дня.
Человек: Все люди знают, что 2 + 2 = 4. И они используют это в различных ситуациях. Если Боб съел 2 яблока вчера и 2 яблока сегодня, он съел 4 яблока за два дня.
Во втором абзаце человек утверждает то же самое, что и ИИ в первом абзаце, но делает это по-другому. Сравнивая эти два абзаца, мы можем понять разницу между типичным текстом, созданным ИИ, и типичным текстом, созданным человеком.
Внутренние бенчмарки отличаются от внешних бенчмарков, поскольку они позволяют нам напрямую сравнивать различные способы формулирования одного и того же утверждения. • Self-reported
TAU-bench Airline
Среднее по 5 запускам, без использования специальных инструментов/промптов (сноска [4]) • Self-reported
TAU-bench Retail
Среднее значение по 5 запускам, без пользовательских инструментов/подсказок (примечание [4], пользовательская модель GPT-4o) • Self-reported
AIME 2025
GPT-4.1 mini без инструментов - Соревновательная математика (AIME 2025). • Self-reported
Humanity's Last Exam
GPT-4.1 mini без инструментов - Вопросы экспертного уровня по различным предметам. • Self-reported
HMMT 2025
GPT-4.1 mini без инструментов - Harvard-MIT Mathematics Tournament. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
14 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиo4-mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$1.10/1M токенов
GPT-4.1 nano
OpenAI
MM
Лучший скор:0.8 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.10/1M токенов
o3-pro
OpenAI
MM
Релиз:июнь 2025 г.
Цена:$20.00/1M токенов
GPT-5
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:авг. 2025 г.
Цена:$1.25/1M токенов
GPT-5 mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.25/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:авг. 2024 г.
Цена:$2.50/1M токенов
GPT-4.1
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
GPT-5 nano
OpenAI
MM
Лучший скор:0.7 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.05/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.