OpenAI logo

o3

Мультимодальная
OpenAI

Самая мощная модель рассуждений от OpenAI. o3 — это универсальная и мощная модель в различных областях. Она устанавливает новый стандарт для задач математики, науки, программирования и визуального мышления. Также превосходно справляется с техническим письмом и следованием инструкциям. Используйте её для решения многоэтапных проблем, которые включают анализ текста, кода и изображений.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
16 апреля 2025 г.
Средний балл
63.4%

Временная шкала

Ключевые даты в истории модели
Анонс
16 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
31 мая 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$2.00
Выход (за 1М токенов)
$8.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
100.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
SWE-Bench Verified
точностьSelf-reported
69.1%

Рассуждения

Логические рассуждения и анализ
GPQA
OpenAI o3 - Diamond мышление без инструментов AI: OpenAI o3Self-reported
83.3%

Мультимодальность

Работа с изображениями и визуальными данными
MathVista
точностьSelf-reported
86.8%
MMMU
OpenAI o3 с режимом размышления - Решение визуальных задач уровня колледжа с использованием мультимодальных рассуждений.Self-reported
82.9%

Другие тесты

Специализированные бенчмарки
Aider-Polyglot
точность (полная)Self-reported
81.3%
AIME 2024
точность (без инструментов)Self-reported
91.6%
AIME 2025
pass@1 (без инструментов)Self-reported
86.4%
ARC-AGI
оценка на тестовом набореSelf-reported
88.0%
ARC-AGI v2
точностьVerified
6.5%
BrowseComp
точность (с Python + просмотр веб-страниц)Self-reported
49.7%
CharXiv-R
OpenAI o3 с режимом размышления - Научная интерпретация и анализ графиков.Self-reported
78.6%
FrontierMath
точностьSelf-reported
15.8%
Humanity's Last Exam
точность (без инструментов)Self-reported
20.2%
Humanity's Last Exam
OpenAI o3 с включенным режимом размышления (Python + инструменты браузера) - Полный набор вопросов экспертного уровня по различным предметам.Self-reported
24.3%
Humanity's Last Exam
OpenAI o3 с включенным режимом размышления (без инструментов) - Полный набор вопросов экспертного уровня по различным предметам.Self-reported
14.7%
Scale MultiChallenge
точностьSelf-reported
56.5%
Scale MultiChallenge
OpenAI o3 с включенным режимом размышления - Бенчмарк выполнения многоходовых инструкций.Self-reported
60.4%
COLLIE
OpenAI o3 с активированным режимом размышления - Следование инструкциям при свободном написании текста.Self-reported
98.4%
Tau2 airline
OpenAI o3 с режимом размышления - Бенчмарк вызова функций (авиационная сфера).Self-reported
64.8%
Tau2 retail
OpenAI o3 с режимом размышления - Бенчмарк вызова функций (розничная сфера).Self-reported
80.2%
Tau2 telecom
OpenAI o3 с режимом размышления - Бенчмарк вызова функций (телекоммуникационная сфера).Self-reported
58.2%
MMMU-Pro
OpenAI o3 с режимом размышления - решение визуальных задач уровня магистратуры с использованием продвинутого мультимодального рассуждения.Self-reported
76.4%
VideoMMMU
OpenAI o3 с режимом размышления - Мультимодальное рассуждение на основе видео (максимум 256 кадров).Self-reported
83.3%
ERQA
OpenAI o3 с режимом размышления - Мультимодальные пространственные рассуждения.Self-reported
64.0%
Tau-bench
точность (среднее для Airline/Retail)Self-reported
63.0%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
16 апреля 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.