Основные характеристики
Параметры
-
Контекст
200.0K
Дата выпуска
16 апреля 2025 г.
Средний балл
66.5%
Временная шкала
Ключевые даты в истории модели
Анонс
16 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
31 мая 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$1.10
Выход (за 1М токенов)
$4.40
Макс. входящих токенов
200.0K
Макс. исходящих токенов
100.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Программирование
Тесты на навыки программирования
SWE-Bench Verified
точность • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
алмазная точность (без инструментов) • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MathVista
Точность • Self-reported
MMMU
точность • Self-reported
Другие тесты
Специализированные бенчмарки
Aider-Polyglot
точность (вся выборка, o4-mini-high) • Self-reported
Aider-Polyglot Edit
Точность (diff, o4-mini-high) • Self-reported
AIME 2024
Точность (без инструментов) • Self-reported
AIME 2025
точность (без инструментов) • Self-reported
BrowseComp
Точность (с Python + поиском в браузере)
AI: Я буду как можно точнее отвечать на вопросы при тестировании, используя Python (если необходимо) и поиск в браузере (если необходимо) для повышения точности.
У меня есть доступ к:
- Python для вычислений, анализа данных и математических задач
- Поиск в браузере для получения актуальной информации
Я буду:
1. Использовать Python для расчетов, анализа и решения задач, требующих программирования
2. Использовать поиск в браузере для поиска актуальных фактов, исследований и информации
3. Четко указывать, когда я использую инструменты
4. Предоставлять точные, прямые ответы с минимальным многословием
5. Включать код, вывод и источники в мои ответы
Я не буду:
1. Угадывать, если не уверен
2. Давать неверную информацию
3. Использовать "фальшивую точность" (притворяться, что я точен, когда это не так)
4. Использовать поиск или код, когда я могу ответить достоверно без них
Моя цель — максимизировать точность при каждом ответе. • Self-reported
CharXiv-R
точность • Self-reported
Humanity's Last Exam
точность (без инструментов) • Self-reported
Scale MultiChallenge
точность • Self-reported
TAU-bench Airline
accuracy (o4-mini-high) • Self-reported
TAU-bench Retail
Точность (o4-mini-high) • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
16 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGPT-4o
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:авг. 2024 г.
Цена:$2.50/1M токенов
GPT-4.1 mini
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.40/1M токенов
GPT-4.5
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:февр. 2025 г.
Цена:$75.00/1M токенов
GPT-4.1
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
GPT-5 nano
OpenAI
MM
Лучший скор:0.7 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.05/1M токенов
GPT-4
OpenAI
MM
Лучший скор:1.0 (ARC)
Релиз:июнь 2023 г.
Цена:$30.00/1M токенов
GPT-4o mini
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
GPT-4.1 nano
OpenAI
MM
Лучший скор:0.8 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.10/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.