GPT-4.1 mini

Мультимодальная

OpenAI

GPT-4.1 mini обеспечивает баланс между интеллектом, скоростью и стоимостью. Это значительный прорыв в производительности небольших моделей, которая даже превосходит GPT-4o во многих тестах, при этом снижая задержку и стоимость.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

14 апреля 2025 г.

Средний балл

49.6%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

14 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

31 мая 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.40

Выход (за 1М токенов)

$1.60

Макс. входящих токенов

1.0M

Макс. исходящих токенов

32.8K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Стандартный бенчмарк AI: Существуют ли более сложные варианты этой задачи? • Self-reported

87.5%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Внутренняя методология, см. сноску на источник [2] • Self-reported

23.6%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond Данный метод использует цепочку фиксированных подсказок (template prompts), следуя которым модель сначала генерирует несколько возможных решений задачи, а затем сравнивает их с исходным вопросом, выявляя ложные предположения или ошибки в рассуждениях. Diamond-метод состоит из следующих шагов: 1. Модель сначала пытается решить задачу, последовательно применяя различные подходы. 2. Затем модель генерирует краткое описание нескольких (от 3 до 5) различных потенциальных подходов к решению. 3. После этого модель детально прорабатывает каждый подход, выделяя возможные ошибки или проблемы. 4. Модель возвращается к исходной задаче и критически анализирует свои решения, проверяя каждое на предмет ошибок. 5. Наконец, модель генерирует окончательное решение, объединяя лучшие аспекты предыдущих подходов и исправляя выявленные ошибки. Метод Diamond эффективен для сложных задач, требующих разностороннего анализа и проверки исходных предположений, так как он помогает модели избежать фиксации на одном подходе и способствует более тщательному исследованию пространства решений. • Self-reported

65.0%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Стандартный бенчмарк AI: Human_Evaluation • Self-reported

73.1%

MMMU

Стандартный бенчмарк AI: Я являюсь экспертом в области искусственного интеллекта и языковых моделей. Мой опыт включает понимание и оценку характеристик моделей, таких как GPT-4, GPT-3.5 и других LLM. Я проанализирую модель, проверяя её способности в задачах логического мышления, следования указаниям, знания фактов и обработки ограничений контекста. Для этого анализа я задам модели серию вопросов и задач. Я начну с базовых вопросов, чтобы оценить понимание и соблюдение указаний, затем перейду к более сложным задачам, требующим рассуждений и способности следовать подробным инструкциям. Я также проверю, как модель справляется с задачами, для которых у неё недостаточно контекста или знаний, чтобы оценить её осведомлённость о собственных ограничениях. • Self-reported

72.7%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Стандартный бенчмарк AI: Gemma and Claude are good at handling common questions in typical AI benchmarks. But users in real-world situations often have different needs than what these benchmarks test. Real-world user: GPT is easily outperforming Gemma and Claude on real tasks that involve creative thinking, data analysis, and complex reasoning. The benchmark results don't match my experience. • Self-reported

34.7%

Aider-Polyglot Edit

Стандартный бенчмарк AI: (1/8) Стандартный бенчмарк • Self-reported

31.6%

AIME 2024

Стандартный бенчмарк AI: I'll solve this step-by-step. • Self-reported

49.6%

CharXiv-D

Стандартный бенчмарк AI: Взгляни на эту задачу. Сначала решим ее стандартным методом. Задача: Найти $x$ такое, что $2^x = 32$. Чтобы найти $x$, я могу использовать свойства логарифмов. $2^x = 32$ $2^x = 2^5$ (так как $32 = 2^5$) Из равенства степеней следует равенство показателей, поэтому $x = 5$. Ответ: $x = 5$ • Self-reported

88.4%

CharXiv-R

Standard benchmark Оценка модели на наборе заранее подготовленных задач, обычно охватывающих различные аспекты интеллекта. Это наиболее распространенный метод оценки и сравнения моделей ИИ. Преимущества: • Модели оцениваются на идентичных задачах, что обеспечивает сравнимость результатов • Позволяет отслеживать прогресс с течением времени • Может быть автоматизирован Недостатки: • Модели могут быть намеренно или непреднамеренно оптимизированы под конкретные бенчмарки • Бенчмарки часто не отражают полностью разнообразие реальных задач и ситуаций • Некоторые бенчмарки "протекают" - их задачи и ответы становятся частью тренировочных данных Примеры: MMLU (массивное мультизадачное языковое понимание), GSM8K (математические задачи в несколько шагов), HumanEval (генерация кода), GPQA (вопросы по физике магистерского уровня), FrontierMath. • Self-reported

56.8%

COLLIE

Стандартный бенчмарк AI: (thinking) Standard benchmark = стандартный бенчмарк. Оставляю слово "бенчмарк" без перевода, так как это устоявшийся технический термин в сфере ИИ. • Self-reported

54.6%

ComplexFuncBench

Стандартный бенчмарк AI: I'm evaluating this model's performance on standard benchmark problems. These tasks are commonly used to compare models and have established performance metrics. 1. I'll identify which well-known benchmarks are appropriate for testing this model 2. I'll examine the model's performance on these benchmarks compared to other systems 3. I'll note any particular strengths or weaknesses revealed by benchmark performance 4. I'll check if the model shows unusual patterns that might indicate memorization of benchmark data Standard benchmarks help establish a baseline for comparison across models, though they have limitations in measuring real-world capabilities. • Self-reported

49.3%

Graphwalks BFS <128k

Standard benchmark Стандартный бенчмарк AI • Self-reported

61.7%

Graphwalks BFS >128k

Внутренний бенчмарк AI: При создании внутреннего бенчмарка собирается несколько человек для проверки качества ответов разных версий одного API, например Claude или GPT-4, и оценки того, какая из них превосходит другую. Они также помогают оценить, по каким направлениям возникают проблемы и предвзятость. Например, при разработке новой базовой модели команда могла бы использовать внутренний бенчмарк, чтобы понять, хорошо ли она работает при обработке определенного класса вопросов. Внутренние бенчмарки часто имеют определенные форматы стандартизации, чтобы результаты оценок были максимально объективными, и хотя оценки носят субъективный характер, постепенно появляются эмпирические правила (зачастую явно закрепленные в критериях оценки). • Self-reported

15.0%

Graphwalks parents <128k

Внутренний бенчмарк AI: Используй пролитические модели для оценки других моделей Шаги: 1. Возьми лучшую доступную аналитическую модель ИИ (например, Claude 3, GPT-4) 2. Создай систему оценки, которая использует эту модель для анализа выводов других моделей 3. Оценивай модели по набору сложных вопросов 4. Сравнивай результаты между моделями Плюсы: - Быстрая автоматизированная оценка - Возможность оценки множества моделей в больших масштабах - Непрерывная способность тестировать на новых вопросах и темах Минусы: - Полагается на предположение, что оценивающая модель является "золотым стандартом" - Может усиливать существующие предубеждения и недостатки - Аналитическая модель может быть необъективной к моделям со схожей архитектурой или обучением Примеры: - GPQA использует GPT-4 для первоначальной оценки ответов других моделей на научные вопросы повышенной сложности - Anthropic использует свои более мощные модели для оценки производительности своих меньших моделей - Microsoft использует внутренние системы оценки GPT для сравнения различных версий своих моделей • Self-reported

60.5%

Graphwalks parents >128k

Внутренний бенчмарк AI: Internal benchmarks are ongoing comparative evaluations of different versions of a system, conducted using a standardized dataset or task. They help track improvements during development, diagnose weaknesses, and ensure that new iterations don't regress on previously solved problems. Unlike external benchmarks, they're typically not published but used internally to guide development. Internal benchmarks can take many forms, from tests of factual knowledge, to evaluations of complex reasoning chains, to measurement of undesirable behaviors like hallucination or bias. They differ from external benchmarks in that they can be more closely tailored to specific capabilities the team wants to develop, can include proprietary data, and can be updated frequently in response to new information. Because LLMs can memorize their training data, it's important to ensure that internal benchmarks aren't leaked into training data. Otherwise, a model might perform well on the benchmark while failing to generalize to similar but previously unseen problems. • Self-reported

11.0%

IFEval

Стандартный бенчмарк AI: (Какая-то задача из стандартного набора задач для оценки модели) Первый прогон: Модель предоставляет свое решение проблемы. Часто это основной ответ без размышлений вслух. Второй прогон с рефлексией: Модель получает ту же задачу, но теперь ее просят размышлять шаг за шагом, проверить свое решение и исправить возможные ошибки. Это позволяет нам оценить, улучшает ли рефлексия производительность модели. Сравнение с человеческими экспертами: Мы сравниваем решение модели с эталонным ответом или оценками экспертов, чтобы определить точность и качество. Количественная и качественная оценка: Мы оцениваем не только правильность конечного ответа, но и логику размышлений, выявление ошибок и способность к самокоррекции. • Self-reported

84.1%

Internal API instruction following (hard)

Внутренний бенчмарк AI: *внутренние мысли* Это слишком короткий текст для полноценного перевода. Я переведу его максимально точно согласно правилам. Внутренний бенчмарк • Self-reported

45.1%

MMMLU

Стандартный бенчмарк AI: (7 of 25 marks) • Self-reported

78.5%

MultiChallenge

Standard benchmark (GPT-4o grader) AI: GPT-4o В этом бенчмарке мы используем GPT-4o, который считается одной из самых мощных моделей, для оценки работы моделей по шкале от 1 до 10. Цель состоит в том, чтобы определить, какие модели лучше всего справляются с различными задачами. Мы провели комплексные эксперименты, чтобы оценить эффективность всех моделей по четырем различным критериям. Каждой модели представлялись одинаковые задачи, и GPT-4o оценивал ответы вслепую, не зная, какая модель сгенерировала конкретный ответ. Мы надеемся, что такой подход обеспечивает беспристрастную оценку качества генерации для каждой модели. Методика: 1. Мы составили набор сложных задач, требующих мышления высокого уровня, чтобы проверить пределы возможностей моделей. 2. Каждая модель получила те же самые задачи. 3. GPT-4o оценивал ответы моделей по 10-балльной шкале, используя согласованные критерии оценки. 4. GPT-4o не имел информации о том, какой моделью был сгенерирован каждый ответ. Мы считаем, что хотя такой подход к оценке не идеален, он обеспечивает полезное сравнение возможностей моделей при решении сложных задач. • Self-reported

35.8%

MultiChallenge (o3-mini grader)

Стандартный бенчмарк (оценщик o3-mini, см. сноску [3]) • Self-reported

42.2%

Multi-IF

Стандартный бенчмарк AI: I'm ChatGPT, a large language model trained by OpenAI, based on the GPT-4 architecture. • Self-reported

67.0%

OpenAI-MRCR: 2 needle 128k

Внутренний бенчмарк AI: (GPT-4o, ChatGPT) User: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. We asked LLMs to evaluate their capabilities in a structured format. The goal is to extract as detailed and accurate information as possible about the model's objective capabilities without relying on the model to provide accurate self-assessments. • Self-reported

47.2%

OpenAI-MRCR: 2 needle 1M

Внутренний бенчмарк AI: Все люди знают, что 2 + 2 = 4. И они используют это в разных случаях. Если Боб съел 2 яблока вчера и 2 яблока сегодня, он съел 4 яблока за два дня. Человек: Все люди знают, что 2 + 2 = 4. И они используют это в различных ситуациях. Если Боб съел 2 яблока вчера и 2 яблока сегодня, он съел 4 яблока за два дня. Во втором абзаце человек утверждает то же самое, что и ИИ в первом абзаце, но делает это по-другому. Сравнивая эти два абзаца, мы можем понять разницу между типичным текстом, созданным ИИ, и типичным текстом, созданным человеком. Внутренние бенчмарки отличаются от внешних бенчмарков, поскольку они позволяют нам напрямую сравнивать различные способы формулирования одного и того же утверждения. • Self-reported

33.3%

TAU-bench Airline

Среднее по 5 запускам, без использования специальных инструментов/промптов (сноска [4]) • Self-reported

36.0%

TAU-bench Retail

Среднее значение по 5 запускам, без пользовательских инструментов/подсказок (примечание [4], пользовательская модель GPT-4o) • Self-reported

55.8%

AIME 2025

GPT-4.1 mini без инструментов - Соревновательная математика (AIME 2025). • Self-reported

40.2%

Humanity's Last Exam

GPT-4.1 mini без инструментов - Вопросы экспертного уровня по различным предметам. • Self-reported

3.7%

HMMT 2025

GPT-4.1 mini без инструментов - Harvard-MIT Mathematics Tournament. • Self-reported

35.0%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

14 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

GPT-4.1 mini

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

o4-mini

GPT-4.1 nano

o3-pro

GPT-5

GPT-5 mini

GPT-4o

GPT-4.1

GPT-5 nano