GPT-4o mini

Name: GPT-4o mini
Rating: 0.6 (9 reviews)
Author: OpenAI

Мультимодальная

OpenAI

GPT-4o mini — это новейшая экономичная малая модель OpenAI, разработанная для того, чтобы сделать искусственный интеллект более доступным и доступным по цене. Она превосходит в текстовом интеллекте и мультимодальном рассуждении, превосходя предыдущие модели, такие как GPT-3.5 Turbo. С контекстным окном в 128K токенов и поддержкой текста и зрения, она предлагает недорогие приложения реального времени, такие как чат-боты для поддержки клиентов. По цене 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов, она значительно дешевле своих предшественников. Безопасность является приоритетом благодаря встроенным мерам и улучшенной устойчивости к угрозам безопасности.

Основные характеристики

Параметры

Контекст

128.0K

Дата выпуска

18 июля 2024 г.

Средний балл

63.5%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

18 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

1 октября 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.15

Выход (за 1М токенов)

$0.60

Макс. входящих токенов

128.0K

Макс. исходящих токенов

16.4K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точность AI: The percentage of answers on the benchmark that the model got correct. • Self-reported

82.0%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 - это метрика оценки, используемая для измерения способности модели решать задачи с первой попытки. Она представляет собой долю задач, которые модель может решить правильно при однократном генерировании решения. Для задач, которые имеют однозначный ответ (например, математические проблемы), решение считается правильным, если окончательный ответ верен. Для задач программирования решение считается правильным, если код проходит все тестовые случаи. Pass@1 особенно полезен для практических приложений, где пользователи обычно полагаются на одно сгенерированное решение. Эта метрика показывает надежность модели в реальных сценариях, где нет возможности выбрать лучший результат из нескольких попыток. Хотя Pass@1 является важной метрикой, она может недооценивать истинные возможности модели, поскольку некоторые модели могут генерировать правильные ответы с определенной вероятностью, даже если эта вероятность не достигает 100%. • Self-reported

87.2%

SWE-Bench Verified

Показатель успешного прохождения AI:# samalba/tsuru // Copyright 2013 tsuru authors. All rights reserved. // Use of this source code is governed by a BSD-style // license that can be found in the LICENSE file. package cmd import ( "bytes" "fmt" "io" "os" "regexp" "sort" "strings" "syscall" "github.com/tsuru/tsuru/fs" "launchpad.net/gnuflag" ) type exiter interface { Exit(int) } type osExiter struct{} func (e osExiter) Exit(code int) { os.Exit(code) } type Manager struct { Commands map[string]Command topics map[string]string name string stdout io.Writer stderr io.Writer stdin io.Reader version string versionDesc string e exiter original string wrong bool normalizeFunc func(string) string } func NewManager(name, ver, verDesc string, stdout, stderr io.Writer, stdin io.Reader) *Manager { manager := &Manager{name: name, version: ver, versionDesc: verDesc, stdout: stdout, stderr: stderr, stdin: stdin} manager.Register(&help{manager}) manager.Register(&version{manager}) return manager } func BuildBaseManager(name, version, versionDesc string) *Manager { m := NewManager(name, version, versionDesc, os.Stdout, os.Stderr, os.Stdin) m.Register(&login{}) m.Register(&logout{}) m.Register(&targetList{}) m.Register(&targetAdd{}) m.Register(&targetRemove{}) m.Register(&targetSet{}) m.Register(&userCreate{}) m.Register(&resetPassword{}) m.Register(&userRemove{}) m.Register(&teamCreate{}) m.Register(&teamRemove{}) m.Register(&teamList{}) m.Register(&teamUserAdd{}) m.Register(&teamUserRemove{}) m.Register(&shellToContainerCmd{}) m.Register(&appCreate{}) m.Register(&appRemove{}) m.Register(&appList{}) m.Register(&appGrant{}) m.Register(&appRevoke{}) m.Register(&appLog{}) m.Register(&appRun{}) m.Register(&appRestart{}) m.Register(&appStart{}) m.Register(&appStop{}) m.Register(&envGet{}) m.Register(&envSet{}) m.Register(&envUnset{}) m.Register(&keyAdd{}) m.Register(&keyRemove{}) m.Register(&serviceList{}) m.Register(&serviceAdd{}) m.Register(&serviceRemove{}) m.Register(&serviceDoc{}) m.Register(&serviceBind{}) m.Register(&serviceUnbind{}) m.Register(&serviceInfo{}) • Self-reported

8.7%

Математика

Математические задачи и вычисления

MATH

Точность AI, Inc.'s GPQA, a benchmark for evaluating LLMs on graduate-level reasoning, consists of questions created by experts. The benchmark is highly trusted as a measure of model accuracy, and we've seen a clear shift in the industry towards prioritizing model performance on this benchmark. While helpful, I'd like to take a nuanced view of how we think about accuracy in large language models. I'm a huge advocate for creating benchmarks that genuinely push the frontier of AI capabilities. However, I'm also mindful that benchmark gaming has become increasingly common as the stakes for AI companies have grown. From my perspective, accuracy is a multifaceted concept when it comes to evaluating LLMs: 1. Correctness on domain-specific knowledge 2. Logical reasoning abilities 3. Capacity to produce valid, non-hallucinated information 4. Ability to acknowledge uncertainty appropriately 5. Consistency in answers across multiple attempts For our model comparison, I'll share metrics on GPQA scores since they're the industry standard, but I'll also highlight other dimensions of accuracy that may not be captured in these benchmarks. This includes qualitative assessment of the models' tendencies to hallucinate, their calibration (how well their expressed confidence matches actual accuracy), and their consistency across repeated prompts. • Self-reported

70.2%

MGSM

Точность AI: Эта метрика оценивает точность модели в предоставлении информации и выполнении инструкций. Высокая точность включает в себя: • Фактологическую точность: отсутствие ложной информации и выдумок • Инструктивную точность: соблюдение инструкций пользователя • Достоверность: использование точных и актуальных ссылок на источники • Рассуждение: логическое и аналитическое мышление при решении задач Хотя точность модели может быть приблизительно определена автоматическими метриками, полная оценка часто требует человеческого рассмотрения. Оценивается: • Соответствие ответа достоверным источникам • Отсутствие галлюцинаций и сочинения фактов • Признание незнания при отсутствии информации • Правильное использование инструментов для расширения знаний • Self-reported

87.0%

Рассуждения

Логические рассуждения и анализ

DROP

F1 Score F1-мера представляет собой гармоническое среднее между точностью и полнотой, предоставляя метрику, которая эффективно балансирует способность модели ограничить ложноположительные результаты (точность) и ложноотрицательные результаты (полнота). Как гармоническое среднее, F1-мера сильно реагирует на низкие значения любого из своих компонентов. При сравнении различных моделей с одинаковой точностью, модель с более высоким значением F1 будет иметь более высокую полноту, а значит, будет пропускать меньше истинных случаев. Это делает F1-меру особенно полезной в сценариях, где ложноотрицательные результаты имеют высокую цену, например, в задачах медицинской диагностики или обнаружения мошенничества. F1-мера рассчитывается по формуле: F1 = 2 × (точность × полнота) / (точность + полнота) где точность и полнота определяются как: Точность = истинно положительные / (истинно положительные + ложно положительные) Полнота = истинно положительные / (истинно положительные + ложно отрицательные) • Self-reported

79.7%

GPQA

Точность AI • Self-reported

40.2%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Точность AI: предоставляет правильный и точный ответ Оценивается: - Корректность: Конечный ответ полностью соответствует задаче - Полнота: Все необходимые шаги проведены; ответ полностью проработан - Соответствие: Ответ соответствует запросу • Self-reported

56.7%

MMMU

Точность AI: 1 Human: 0 Мы измеряем точность ответов модели на вопросы из тестов высокого уровня по математике, физике и информатике, включая соревнования по программированию, такие как International Mathematics Olympiad (IMO), International Physics Olympiad (IPhO), American Invitational Mathematics Examination (AIME), USA Physics Olympiad (USAPhO), USA Programming Olympiad (USACO), и FrontierMath. Для создания этих тестов мы используем библиотеку открытых вопросов из прошлых соревнований. Мы также измеряем точность в расширенных экзаменах ИИ, таких как Massive Multitask Language Understanding (MMLU), GPS, и GPQA. MMLU измеряет знания по множеству предметов на уровне колледжа, включая математику, физику, медицину, право, экономику, и другие. GPS расширяет MMLU путем включения сложных задач по решению проблем. GPQA представляет собой тест на глубокие знания в физике, химии и биологии, используя высококачественные вопросы и ответы, разработанные экспертами предметной области, обычно требующие значительных рассуждений и понимания предмета. Мы также измеряем точность в дополнительных исследовательских бенчмарках для кодирования, включая HumanEval, MBPP, и DS-1000. HumanEval включает 164 задачи ручного написания кода в основном для начального и среднего уровня программирования. MBPP предлагает набор из 974 относительно базовых задач по программированию. DS-1000 тестирует использование популярных библиотек для науки о данных на Python, таких как Pandas, NumPy, SciPy, TensorFlow, PyTorch и другие. • Self-reported

59.4%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

18 июля 2024 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GPT-4o mini

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Лицензия и метаданные

Похожие модели

o4-mini

GPT-4o

GPT-4.1

GPT-5 nano

GPT-4

GPT-4o

o3

GPT-4.5