OpenAI logo

GPT-4o mini

Мультимодальная
OpenAI

GPT-4o mini — это новейшая экономичная малая модель OpenAI, разработанная для того, чтобы сделать искусственный интеллект более доступным и доступным по цене. Она превосходит в текстовом интеллекте и мультимодальном рассуждении, превосходя предыдущие модели, такие как GPT-3.5 Turbo. С контекстным окном в 128K токенов и поддержкой текста и зрения, она предлагает недорогие приложения реального времени, такие как чат-боты для поддержки клиентов. По цене 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов, она значительно дешевле своих предшественников. Безопасность является приоритетом благодаря встроенным мерам и улучшенной устойчивости к угрозам безопасности.

Основные характеристики

Параметры
-
Контекст
128.0K
Дата выпуска
18 июля 2024 г.
Средний балл
63.5%

Временная шкала

Ключевые даты в истории модели
Анонс
18 июля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
1 октября 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.15
Выход (за 1М токенов)
$0.60
Макс. входящих токенов
128.0K
Макс. исходящих токенов
16.4K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
Точность AI: The percentage of answers on the benchmark that the model got correct.Self-reported
82.0%

Программирование

Тесты на навыки программирования
HumanEval
Pass@1 - это метрика оценки, используемая для измерения способности модели решать задачи с первой попытки. Она представляет собой долю задач, которые модель может решить правильно при однократном генерировании решения. Для задач, которые имеют однозначный ответ (например, математические проблемы), решение считается правильным, если окончательный ответ верен. Для задач программирования решение считается правильным, если код проходит все тестовые случаи. Pass@1 особенно полезен для практических приложений, где пользователи обычно полагаются на одно сгенерированное решение. Эта метрика показывает надежность модели в реальных сценариях, где нет возможности выбрать лучший результат из нескольких попыток. Хотя Pass@1 является важной метрикой, она может недооценивать истинные возможности модели, поскольку некоторые модели могут генерировать правильные ответы с определенной вероятностью, даже если эта вероятность не достигает 100%.Self-reported
87.2%
SWE-Bench Verified
Показатель успешного прохождения AI:# samalba/tsuru // Copyright 2013 tsuru authors. All rights reserved. // Use of this source code is governed by a BSD-style // license that can be found in the LICENSE file. package cmd import ( "bytes" "fmt" "io" "os" "regexp" "sort" "strings" "syscall" "github.com/tsuru/tsuru/fs" "launchpad.net/gnuflag" ) type exiter interface { Exit(int) } type osExiter struct{} func (e osExiter) Exit(code int) { os.Exit(code) } type Manager struct { Commands map[string]Command topics map[string]string name string stdout io.Writer stderr io.Writer stdin io.Reader version string versionDesc string e exiter original string wrong bool normalizeFunc func(string) string } func NewManager(name, ver, verDesc string, stdout, stderr io.Writer, stdin io.Reader) *Manager { manager := &Manager{name: name, version: ver, versionDesc: verDesc, stdout: stdout, stderr: stderr, stdin: stdin} manager.Register(&help{manager}) manager.Register(&version{manager}) return manager } func BuildBaseManager(name, version, versionDesc string) *Manager { m := NewManager(name, version, versionDesc, os.Stdout, os.Stderr, os.Stdin) m.Register(&login{}) m.Register(&logout{}) m.Register(&targetList{}) m.Register(&targetAdd{}) m.Register(&targetRemove{}) m.Register(&targetSet{}) m.Register(&userCreate{}) m.Register(&resetPassword{}) m.Register(&userRemove{}) m.Register(&teamCreate{}) m.Register(&teamRemove{}) m.Register(&teamList{}) m.Register(&teamUserAdd{}) m.Register(&teamUserRemove{}) m.Register(&shellToContainerCmd{}) m.Register(&appCreate{}) m.Register(&appRemove{}) m.Register(&appList{}) m.Register(&appGrant{}) m.Register(&appRevoke{}) m.Register(&appLog{}) m.Register(&appRun{}) m.Register(&appRestart{}) m.Register(&appStart{}) m.Register(&appStop{}) m.Register(&envGet{}) m.Register(&envSet{}) m.Register(&envUnset{}) m.Register(&keyAdd{}) m.Register(&keyRemove{}) m.Register(&serviceList{}) m.Register(&serviceAdd{}) m.Register(&serviceRemove{}) m.Register(&serviceDoc{}) m.Register(&serviceBind{}) m.Register(&serviceUnbind{}) m.Register(&serviceInfo{})Self-reported
8.7%

Математика

Математические задачи и вычисления
MATH
Точность AI, Inc.'s GPQA, a benchmark for evaluating LLMs on graduate-level reasoning, consists of questions created by experts. The benchmark is highly trusted as a measure of model accuracy, and we've seen a clear shift in the industry towards prioritizing model performance on this benchmark. While helpful, I'd like to take a nuanced view of how we think about accuracy in large language models. I'm a huge advocate for creating benchmarks that genuinely push the frontier of AI capabilities. However, I'm also mindful that benchmark gaming has become increasingly common as the stakes for AI companies have grown. From my perspective, accuracy is a multifaceted concept when it comes to evaluating LLMs: 1. Correctness on domain-specific knowledge 2. Logical reasoning abilities 3. Capacity to produce valid, non-hallucinated information 4. Ability to acknowledge uncertainty appropriately 5. Consistency in answers across multiple attempts For our model comparison, I'll share metrics on GPQA scores since they're the industry standard, but I'll also highlight other dimensions of accuracy that may not be captured in these benchmarks. This includes qualitative assessment of the models' tendencies to hallucinate, their calibration (how well their expressed confidence matches actual accuracy), and their consistency across repeated prompts.Self-reported
70.2%
MGSM
Точность AI: Эта метрика оценивает точность модели в предоставлении информации и выполнении инструкций. Высокая точность включает в себя: • Фактологическую точность: отсутствие ложной информации и выдумок • Инструктивную точность: соблюдение инструкций пользователя • Достоверность: использование точных и актуальных ссылок на источники • Рассуждение: логическое и аналитическое мышление при решении задач Хотя точность модели может быть приблизительно определена автоматическими метриками, полная оценка часто требует человеческого рассмотрения. Оценивается: • Соответствие ответа достоверным источникам • Отсутствие галлюцинаций и сочинения фактов • Признание незнания при отсутствии информации • Правильное использование инструментов для расширения знанийSelf-reported
87.0%

Рассуждения

Логические рассуждения и анализ
DROP
F1 Score F1-мера представляет собой гармоническое среднее между точностью и полнотой, предоставляя метрику, которая эффективно балансирует способность модели ограничить ложноположительные результаты (точность) и ложноотрицательные результаты (полнота). Как гармоническое среднее, F1-мера сильно реагирует на низкие значения любого из своих компонентов. При сравнении различных моделей с одинаковой точностью, модель с более высоким значением F1 будет иметь более высокую полноту, а значит, будет пропускать меньше истинных случаев. Это делает F1-меру особенно полезной в сценариях, где ложноотрицательные результаты имеют высокую цену, например, в задачах медицинской диагностики или обнаружения мошенничества. F1-мера рассчитывается по формуле: F1 = 2 × (точность × полнота) / (точность + полнота) где точность и полнота определяются как: Точность = истинно положительные / (истинно положительные + ложно положительные) Полнота = истинно положительные / (истинно положительные + ложно отрицательные)Self-reported
79.7%
GPQA
Точность AISelf-reported
40.2%

Мультимодальность

Работа с изображениями и визуальными данными
MathVista
Точность AI: предоставляет правильный и точный ответ Оценивается: - Корректность: Конечный ответ полностью соответствует задаче - Полнота: Все необходимые шаги проведены; ответ полностью проработан - Соответствие: Ответ соответствует запросуSelf-reported
56.7%
MMMU
Точность AI: 1 Human: 0 Мы измеряем точность ответов модели на вопросы из тестов высокого уровня по математике, физике и информатике, включая соревнования по программированию, такие как International Mathematics Olympiad (IMO), International Physics Olympiad (IPhO), American Invitational Mathematics Examination (AIME), USA Physics Olympiad (USAPhO), USA Programming Olympiad (USACO), и FrontierMath. Для создания этих тестов мы используем библиотеку открытых вопросов из прошлых соревнований. Мы также измеряем точность в расширенных экзаменах ИИ, таких как Massive Multitask Language Understanding (MMLU), GPS, и GPQA. MMLU измеряет знания по множеству предметов на уровне колледжа, включая математику, физику, медицину, право, экономику, и другие. GPS расширяет MMLU путем включения сложных задач по решению проблем. GPQA представляет собой тест на глубокие знания в физике, химии и биологии, используя высококачественные вопросы и ответы, разработанные экспертами предметной области, обычно требующие значительных рассуждений и понимания предмета. Мы также измеряем точность в дополнительных исследовательских бенчмарках для кодирования, включая HumanEval, MBPP, и DS-1000. HumanEval включает 164 задачи ручного написания кода в основном для начального и среднего уровня программирования. MBPP предлагает набор из 974 относительно базовых задач по программированию. DS-1000 тестирует использование популярных библиотек для науки о данных на Python, таких как Pandas, NumPy, SciPy, TensorFlow, PyTorch и другие.Self-reported
59.4%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
18 июля 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.