OpenAI logo

GPT-4.1

Мультимодальная
OpenAI

GPT-4.1 — это новейшая и наиболее продвинутая флагманская модель OpenAI, которая значительно превосходит GPT-4 Turbo по производительности в бенчмарках, скорости и экономической эффективности.

Основные характеристики

Параметры
-
Контекст
1.0M
Дата выпуска
14 апреля 2025 г.
Средний балл
56.8%

Временная шкала

Ключевые даты в истории модели
Анонс
14 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
1 июня 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$2.00
Выход (за 1М токенов)
$8.00
Макс. входящих токенов
1.0M
Макс. исходящих токенов
32.8K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
Стандартный бенчмарк AI: Переведи следующий текст: To demonstrate that LLMs can actually learn concepts with just a few examples, I asked a modern LLM to solve a simple problem: determining whether a word is ambiguous or not.Self-reported
90.2%

Программирование

Тесты на навыки программирования
SWE-Bench Verified
Внутренняя методология, см. сноску источника [2]Self-reported
54.6%

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond AI: DiamondSelf-reported
66.3%

Мультимодальность

Работа с изображениями и визуальными данными
MathVista
## Стандартный бенчмарк Стандартный бенчмарк — это распространенный подход к сравнению языковых моделей, при котором модели получают одни и те же предопределенные вопросы и задачи, а их производительность оценивается с использованием стандартных метрик. Например, бенчмарк MMLU предлагает задачи с множественным выбором из разных областей знаний, включая медицину, право и математику. Бенчмарк HumanEval оценивает способность языковой модели генерировать правильный код на основе спецификаций. Бенчмарк TruthfulQA оценивает, отвечает ли модель правдиво на вопросы, на которые люди часто отвечают неправильно. Основные преимущества: - Воспроизводимость: одинаковые задачи и метрики обеспечивают объективное сравнение. - Быстрое тестирование: автоматизированные бенчмарки можно быстро запустить для оценки новых систем. - Простота сравнения: стандартные метрики позволяют напрямую сравнивать модели. Ограничения: - Переобучение: модели могут оптимизироваться под конкретные тесты, а не общие способности. - Ограниченный охват: тесты часто не отражают широту реальных задач. - Артефакты метрик: оценка на основе заранее определенных ответов может не учитывать приемлемые альтернативы или важные нюансы.Self-reported
72.2%
MMMU
Стандартный бенчмарк AI: GPT-4o AI Generated content: Benchmark the model on a set of standard benchmarks selected for the task domain. For example, for mathematical reasoning benchmark the model on MMLU or benchmarks specifically targeting mathematical reasoning such as GSM-8K. For programming, benchmark the model on HumanEval, MBPP, or other coding benchmarks. Compare the model's performance against the claimed or expected performance of the model. Any differences should be noted.Self-reported
74.8%

Другие тесты

Специализированные бенчмарки
Aider-Polyglot
Стандартный бенчмарк AI: Хорошо, вот перевод текста: Стандартный бенчмарк AI Assistant: Стандартный бенчмаркSelf-reported
51.6%
Aider-Polyglot Edit
Стандартный бенчмарк AI: Переведи эту статью о том, как LLM решает задачи по математике с рассуждениями вслух: ## Chain-of-Thought prompting Chain-of-Thought (CoT) prompting is a technique that encourages the model to break down complex problems into step-by-step solutions. By prompting the model to "think aloud" through intermediate reasoning steps, CoT has been shown to significantly improve performance on tasks requiring multi-step reasoning, like mathematical problem solving. When we implement CoT, we typically add phrases like "Let's think through this step by step" to the prompt, which encourages the model to work through the problem methodically rather than jumping straight to an answer. For mathematical problems specifically, CoT helps the model organize calculations, track variables, and maintain logical coherence throughout the solution process. Recent research has shown that CoT is particularly effective for more capable models, suggesting that this technique leverages the inherent reasoning capabilities that exist within larger language models but need to be properly elicited.Self-reported
52.9%
AIME 2024
## Стандартный бенчмарк Стандартный бенчмарк — это процесс оценки производительности или эффективности модели ИИ на основе заранее определенного набора задач или заданий. Это метод, используемый для измерения производительности системы и сравнения её с другими системами или с заданным эталоном. В случае моделей ИИ бенчмарки могут включать разнообразные задачи, такие как ответы на вопросы, решение математических задач, задачи на рассуждение, понимание естественного языка и т.д. Результаты этих бенчмарков часто используются для определения, насколько хорошо модель выполняет различные типы задач, а также для сравнения разных моделей между собой. Стандартные бенчмарки являются важным инструментом в исследованиях ИИ, поскольку они предоставляют объективный способ измерения прогресса и сравнения различных подходов. Они также могут помочь выявить сильные и слабые стороны модели, что может направить будущие исследования и разработки.Self-reported
48.1%
CharXiv-D
Standard benchmark Стандартный бенчмарк AI: 1 Human: 0Self-reported
87.9%
CharXiv-R
Standard benchmark Стандартный бенчмарк AI: HuggingGPTSelf-reported
56.7%
COLLIE
Стандартный бенчмарк AI: I begin with a standard set of test questions. I'll analyze the results across metrics like accuracy, reasoning ability, and common error patterns. This gives me a baseline understanding of the model's capabilities and limitations on established problem sets.Self-reported
65.8%
ComplexFuncBench
Стандартный бенчмарк AI: LLama-7B fine-tuned on math problems (open-source). I've created a benchmark approach that uses the standard community benchmarks to evaluate and analyze a model's capabilities: 1. I systematically work through major benchmark datasets like MMLU, GSM8k, MATH, HumanEval, and others, applying consistent evaluation criteria. 2. I don't just look at overall accuracy, but analyze subcategories to identify specific strengths and weaknesses. 3. For math problems, I trace through the model's chain-of-thought to identify where reasoning breaks down. 4. I compare performance against other models in similar size classes to establish relative capabilities. 5. I test sensitivity to prompt engineering by evaluating performance across different instruction formats. This approach provides an objective baseline that reveals a model's fundamental capabilities rather than just optimizing for specific test cases. It allows me to understand where a model excels and where it falls short compared to others in its class.Self-reported
65.5%
Graphwalks BFS <128k
Standard benchmark В этой секции мы сосредоточимся на результатах нашей новой модели Claude 3.5 Sonnet на стандартных академических бенчмарках. Мы измеряем ее возможности на общепринятых бенчмарках для оценки модели, включая GPQA, MMLU, GSM8K, MATH и HumanEval. Эти тесты охватывают широкий спектр навыков, от знаний общего характера и способности следовать инструкциям до решения математических задач и программирования. Мы представляем сравнение с опубликованными результатами для моделей Claude 3 Opus, Claude 3 Sonnet, GPT-4 Turbo, GPT-4o, а также GPT-4. Для новой модели Sonnet мы приводим результаты для модели base, без какой-либо дополнительной настройки для конкретных заданий. На всех пяти бенчмарках Claude 3.5 Sonnet превосходит Claude 3 Opus. Особенно заметны улучшения в областях, требующих комплексных рассуждений и способности решать сложные задачи: +13% на GPQA, +5% на MATH и +4% на GSM8K. Это указывает на значительное улучшение базовых способностей к рассуждению.Self-reported
61.7%
Graphwalks BFS >128k
Внутренний бенчмарк AI: AIME, Math Competition, Thinking Mode This LLM is using an "internal benchmark" approach, where it explicitly compares itself to other AI models. When faced with the AIME problem, it references comparative model performance, mentioning "models like Claude" failing at such problems while positioning itself as more capable. The model specifically references mathematical competitions like AIME, showing familiarity with the domain. It approaches the problem using a defined "thinking mode" methodology, carefully working through the problem step by step rather than attempting to produce an immediate answer. This behavior suggests the model has been explicitly trained or fine-tuned on mathematical reasoning tasks and has been given information about its own capabilities relative to other models. The structured approach with explicit problem decomposition indicates specialized training in mathematical problem-solving techniques.Self-reported
19.0%
Graphwalks parents <128k
Внутренний бенчмарк AI: Yikes! The AI was indeed supposed to be more comprehensive in translating this text. Let me apologize and correct it:Self-reported
58.0%
Graphwalks parents >128k
Внутренний бенчмарк AI: I'm only going to review the few sections in this benchmark, where I believe I can have the most value.Self-reported
25.0%
IFEval
Standard benchmark Стандартный бенчмарк AI: Бренд получения высоких оценок в бенчмарках. Для предметных областей, уже охваченных существующими бенчмарками, мы можем просто сравнивать оценки различных систем. Эти сравнения полезны, когда модель: - Превосходит все предыдущие модели - Значительно превосходит другие модели со сравнимым размером - Приближается к потолку теста/человеческому уровню на задачах, которые ранее были трудными для ИИ - Показывает иной профиль производительности, чем другие модели (например, значительно превосходя в одних задачах, но уступая в других) Мы можем использовать бенчмарки трех типов: - Стандартные академические бенчмарки, широко используемые в сообществе (например, MMLU, GPQA, GSM8K) - Бенчмарки, созданные конкретно для измерения границ возможностей сильных моделей (например, MATH, FrontierMath) - Внутренние бенчмарки, созданные специально для тестирования конкретной модели (например, GPT-4 Eval)Self-reported
87.4%
Internal API instruction following (hard)
Внутренний бенчмарк AI: Переведи на русский следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. ``` We evaluated Llama 2 on a variety of benchmarks to measure its performance on standard metrics and tasks. In this section, we present results on a subset of these benchmarks. Our model evaluations focus on helpfulness and safety. For helpfulness, we evaluate on several multiple-choice question answering datasets. For safety, we evaluate a fine-tuned model on a suite of benchmarks including ToxiGen, measuring toxic content generation, and Civil Comments, measuring toxic content detection. ```Self-reported
49.1%
MMMLU
Стандартный бенчмарк AI: I will first solve a problem from scratch to identify the correct approach and solution, then convert the solution to the desired format.Self-reported
87.3%
MultiChallenge
Стандартный бенчмарк (GPT-4o в качестве оценщика) AI: *предоставляет полные решения для задач бенчмарка* GPT-4o: *оценивает каждую задачу как правильную или неправильную на основе предоставленного решения* Преимущества: • Полностью автоматизированная оценка • Возможность использования существующих бенчмарков • Хорошо установленная методология Недостатки: • Зависимость от GPT-4o может привести к систематическим ошибкам в оценке • GPT-4o может быть обучен на тестовых наборах, создавая проблему контаминации данных • Сложно оценить нюансы в решениях или частично правильные ответы • Обычно требует, чтобы модели предоставляли полное решение, а не только ответSelf-reported
38.3%
MultiChallenge (o3-mini grader)
Стандартный бенчмарк (o3-mini grader, см. сноску [3])Self-reported
46.2%
Multi-IF
Стандартный бенчмарк AI: Это то, что обычно представляют все модели - как их показатели в оценочных рейтингах. Это включает стандартные тесты, такие как MMLU, MATH, GSM8K и т.д. Сюда входят также самые новые бенчмарки: 1. GPQA: новый бенчмарк для оценки глубокого знания 2. FrontierMath: конкурс с задачами по математике университетского уровня 3. AIME: соревнования по математике для старшеклассников 4. Тренировочные контесты Harvard-MIT Mathematics TournamentSelf-reported
70.8%
OpenAI-MRCR: 2 needle 128k
Внутренний бенчмарк AI: Внутренний бенчмаркSelf-reported
57.2%
OpenAI-MRCR: 2 needle 1M
Внутренний бенчмарк AI: Внутренний бенчмаркSelf-reported
46.3%
TAU-bench Airline
Среднее из 5 запусков, без кастомных инструментов/промптов (сноска [4])Self-reported
49.4%
TAU-bench Retail
Среднее по 5 запускам, без специальных инструментов/промптов (сноска [4], пользовательская модель GPT-4o)Self-reported
68.0%
Video-MME (long, no subtitles)
Стандартный бенчмарк AI: RoboVQA (neelayjunnarkar/robovqa), Claude 3.5 Sonnet, OCRA Benchmark methodology I evaluated several models on their ability to answer robot visual question answering questions from the RoboVQA dataset. I evaluated each model on a test set of 10 randomly selected examples, feeding models with the image (where available) and accompanying question. I evaluated each model in a zero-shot setting, without any specific prompting other than the question itself.Self-reported
72.0%
AIME 2025
GPT-4.1 без инструментов - Соревновательная математика (AIME 2025).Self-reported
46.4%
Humanity's Last Exam
GPT-4.1 без инструментов - Вопросы экспертного уровня по различным предметам.Self-reported
5.4%
HMMT 2025
GPT-4.1 без инструментов - Harvard-MIT Mathematics Tournament.Self-reported
28.9%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
14 апреля 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.