o3

Name: o3
Author: OpenAI

Мультимодальная

OpenAI

Самая мощная модель рассуждений от OpenAI. o3 — это универсальная и мощная модель в различных областях. Она устанавливает новый стандарт для задач математики, науки, программирования и визуального мышления. Также превосходно справляется с техническим письмом и следованием инструкциям. Используйте её для решения многоэтапных проблем, которые включают анализ текста, кода и изображений.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

16 апреля 2025 г.

Средний балл

63.4%

API документация Исследование

Временная шкала

Ключевые даты в истории модели

Анонс

16 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

22 июня 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

31 мая 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.00

Выход (за 1М токенов)

$8.00

Макс. входящих токенов

200.0K

Макс. исходящих токенов

100.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

SWE-Bench Verified

точность • Self-reported

69.1%

Рассуждения

Логические рассуждения и анализ

GPQA

OpenAI o3 - Diamond мышление без инструментов AI: OpenAI o3 • Self-reported

83.3%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

точность • Self-reported

86.8%

MMMU

OpenAI o3 с режимом размышления - Решение визуальных задач уровня колледжа с использованием мультимодальных рассуждений. • Self-reported

82.9%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

точность (полная) • Self-reported

81.3%

AIME 2024

точность (без инструментов) • Self-reported

91.6%

AIME 2025

pass@1 (без инструментов) • Self-reported

86.4%

ARC-AGI

оценка на тестовом наборе • Self-reported

88.0%

ARC-AGI v2

точность • Verified

6.5%

BrowseComp

точность (с Python + просмотр веб-страниц) • Self-reported

49.7%

CharXiv-R

OpenAI o3 с режимом размышления - Научная интерпретация и анализ графиков. • Self-reported

78.6%

FrontierMath

точность • Self-reported

15.8%

Humanity's Last Exam

точность (без инструментов) • Self-reported

20.2%

Humanity's Last Exam

OpenAI o3 с включенным режимом размышления (Python + инструменты браузера) - Полный набор вопросов экспертного уровня по различным предметам. • Self-reported

24.3%

Humanity's Last Exam

OpenAI o3 с включенным режимом размышления (без инструментов) - Полный набор вопросов экспертного уровня по различным предметам. • Self-reported

14.7%

Scale MultiChallenge

точность • Self-reported

56.5%

Scale MultiChallenge

OpenAI o3 с включенным режимом размышления - Бенчмарк выполнения многоходовых инструкций. • Self-reported

60.4%

COLLIE

OpenAI o3 с активированным режимом размышления - Следование инструкциям при свободном написании текста. • Self-reported

98.4%

Tau2 airline

OpenAI o3 с режимом размышления - Бенчмарк вызова функций (авиационная сфера). • Self-reported

64.8%

Tau2 retail

OpenAI o3 с режимом размышления - Бенчмарк вызова функций (розничная сфера). • Self-reported

80.2%

Tau2 telecom

OpenAI o3 с режимом размышления - Бенчмарк вызова функций (телекоммуникационная сфера). • Self-reported

58.2%

MMMU-Pro

OpenAI o3 с режимом размышления - решение визуальных задач уровня магистратуры с использованием продвинутого мультимодального рассуждения. • Self-reported

76.4%

VideoMMMU

OpenAI o3 с режимом размышления - Мультимодальное рассуждение на основе видео (максимум 256 кадров). • Self-reported

83.3%

ERQA

OpenAI o3 с режимом размышления - Мультимодальные пространственные рассуждения. • Self-reported

64.0%

Tau-bench

точность (среднее для Airline/Retail) • Self-reported

63.0%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

16 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

o3

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-4o

GPT-4.1

GPT-4o mini

GPT-4.5

GPT-5 nano

o1-pro

GPT-4

GPT-4o