o1

OpenAI

Исследовательская предварительная модель, ориентированная на математические и логические способности рассуждения, демонстрирующая улучшенную производительность при выполнении задач, требующих пошагового рассуждения, решения математических задач и генерации кода. Модель показывает расширенные возможности формального рассуждения при сохранении сильных общих способностей.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

17 декабря 2024 г.

Средний балл

71.6%

API документация Исследование Репозиторий Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

17 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$15.00

Выход (за 1М токенов)

$60.00

Макс. входящих токенов

200.0K

Макс. исходящих токенов

100.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

pass@1 Используется для измерения доли запросов, которые модель решает правильно за одну попытку без вариантов. Это измерение "сырой" способности модели отвечать на первую попытку. Такая метрика в основном применяется к задачам, где существует единственный правильный ответ или решение, например, к математическим задачам. pass@1 особенно важен для оценки способности модели без посторонней помощи (например, без использования кода или внешних инструментов), и отражает, насколько хорошо модель может выдавать ответы непосредственно при первом подходе. • Self-reported

91.8%

Программирование

Тесты на навыки программирования

HumanEval

В pass@1 мы оцениваем модель, позволяя ей генерировать ответ только один раз. Модель просто отвечает на вопрос и указывает её финальный ответ, после чего мы оцениваем этот ответ как правильный или неправильный. Это аналогично подходу, используемому в большинстве недавних сравнительных оценок (например, MMLU, GPQA). • Self-reported

88.1%

SWE-Bench Verified

Верифицированный AI: Переведи этот технический текст: Embedding Token Retrieval Many language models offer an embedding API for mapping text to a vector representation, which can be used to measure semantic similarity between different texts. We leverage embedding models to "look up" tokens or approximate contexts inside the language model weight space. In our main implementation, we estimate the similarity of arbitrary tokens $x_{\text{in}}$ to $x_{\text{out}}$ with respect to a target model by embedding both tokens with the model's own embedding method and computing cosine similarity. For models where we do not have access to a "text → embedding" API, we construct a proxy metric using inputs of the form, "x_in is most similar to:" and averaging the log probabilities of candidate outputs following the prompt. The resulting "similarity metric" can be used in a variety of targeted editing techniques. • Self-reported

41.0%

Математика

Математические задачи и вычисления

GSM8k

pass@1 AI: Вероятность того, что модель решит задачу за одну попытку. При вычислении "pass@1" мы просим модель решить задачу один раз. Затем мы проверяем, правильный ли ответ она получила. Чтобы рассчитать pass@1 для набора задач, мы вычисляем среднюю успешность модели по всем задачам. • Self-reported

97.1%

MATH

pass@1 Прохождение с первой попытки. Этот показатель используется для тестирования задач, имеющих множество возможных решений, но только одно из них принимается как правильное (например, генерация кода или решение математических задач). При этом модель пытается решить задачу только один раз без дополнительных попыток. Этот показатель отражает процент правильных ответов с первой попытки. • Self-reported

96.4%

MGSM

pass@1 Этот метод измеряет долю задач, которые модель решает правильно с первой попытки, когда у неё есть только один шанс на решение. Это строгая метрика, не допускающая нескольких попыток или обратной связи. В отличие от методов, где модели предоставляется несколько шансов (например, pass@k при k > 1), pass@1 требует успеха при первом же ответе. Это отражает способность модели решать задачи без возможности исправления или доработки решения. pass@1 особенно ценен для оценки надёжности систем, которые должны работать с первого раза в реальных сценариях, где нет возможности перепробовать несколько вариантов. Чтобы вычислить pass@1, простым способом является: 1. Предоставление модели набора задач 2. Сбор первого ответа на каждую задачу 3. Оценка правильности каждого ответа 4. Расчёт доли правильных ответов • Self-reported

89.3%

Рассуждения

Логические рассуждения и анализ

GPQA

точность • Self-reported

78.0%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Сдача с первой попытки Chatbot: ChatGPT (gpt-4-turbo) Temperature: 1.0 • Self-reported

71.8%

MMMU

pass@1 Проход с первого раза (pass@1) — это метрика оценки производительности крупных языковых моделей в задачах типа вопрос-ответ и решения задач, особенно в контексте одношаговых рассуждений. В отличие от сравнения с эталонными ответами, pass@1 измеряет вероятность того, что модель предоставит правильный ответ с первой попытки, без повторных попыток или итераций. Это особенно важно для сценариев, где требуется высокая точность с первого раза. Для вычисления pass@1 обычно используется следующий метод: 1. Модели предоставляется задание или вопрос 2. Оценивается первый ответ модели (часто с помощью человеческих экспертов или автоматизированных методов оценки) 3. Результат выражается как доля правильных ответов с первой попытки по всему набору задач Эта метрика считается более строгой, чем метрики, допускающие несколько попыток, и лучше отражает реальную полезность модели в практических приложениях. • Self-reported

77.6%

Другие тесты

Специализированные бенчмарки

AIME 2024

точность • Self-reported

74.3%

FrontierMath

pass@1 Суть pass@1 - предсказать, какой ответ будет правильным с первой попытки. Для этой метрики мы просим LLM генерировать несколько ответов (обычно 5-10) на одну и ту же задачу, а затем просим модель ранжировать эти ответы по качеству. Если лучший ответ по оценке модели верный, мы считаем, что модель решила задачу с первой попытки. pass@1 оценивает способность модели не только находить решение, но и правильно оценивать, какое из решений верное. Это важно в реальных сценариях использования, где пользователь хочет получить правильный ответ сразу, а не перебирать несколько вариантов. Одно из преимуществ этой метрики в том, что она обеспечивает более стабильную оценку возможностей модели, поскольку она снижает влияние случайности при генерации одиночного ответа. • Self-reported

5.5%

GPQA Biology

Pass@1 — это мера способности модели решать задачу, когда ей предоставляется только одна попытка. Это наиболее распространенный сценарий использования больших языковых моделей в реальном мире, где обычно требуется правильный ответ с первого раза. В контексте задач с дискретными ответами (например, задачи с множественным выбором), pass@1 измеряет вероятность того, что модель выберет правильный ответ с первой попытки. Для задач, требующих генерации ответа (например, математические задачи или программирование), pass@1 оценивает, насколько часто модель генерирует корректное решение с первой попытки. Pass@1 представляет собой строгую метрику оценки, поскольку не допускает дополнительных попыток или возможности исправить первоначальные ошибки. Она особенно важна в приложениях, где надежность и точность имеют решающее значение, и где пользователи полагаются на получение правильного ответа сразу. • Self-reported

69.2%

GPQA Chemistry

Успех с первой попытки AI: Переведи следующий текст на русский язык. Сохрани все технические термины и аббревиатуры на английском языке. • Self-reported

64.7%

GPQA Physics

pass@1 Этот метрический показатель измеряет, насколько хорошо модель решает задачу с первой попытки. Например, на задаче из нескольких ответов с четырьмя вариантами, если вы задаете модели вопрос один раз и она отвечает правильно, то это pass@1 = 1.0. Если модель дает неправильный ответ, то pass@1 = 0.0. Мы могли бы рассчитать среднее значение pass@1 по набору задач, чтобы получить общий показатель pass@1 для этого набора задач. Это отличается от другой метрики: accuracy@k, которая измеряет, входит ли правильный ответ в топ-k предсказаний модели. pass@1 соответствует accuracy@1, но они не эквивалентны. pass@1 измеряет способность модели ответить верно за одну попытку, в то время как accuracy@k допускает несколько попыток. • Self-reported

92.8%

LiveBench

Кодирование AI: I'll solve this coding problem step by step. First, let me understand what the problem is asking: - We need to implement a function that [problem description] - Input: [description of input format and constraints] - Output: [description of expected output] Let me think about the algorithm: 1. [First algorithmic step] 2. [Second algorithmic step] 3. [Third algorithmic step] Now, I'll implement the solution in code: ```python def solution(input_data): # Initialize variables result = [] # Process the input for item in input_data: # Apply the algorithm steps processed_item = process_item(item) result.append(processed_item) # Return the final result return result def process_item(item): # Implementation of processing logic return transformed_item ``` Let me test this solution with a few examples: - Example 1: [example input] → [expected output] - Example 2: [example input] → [expected output] Time complexity: O([complexity]) Space complexity: O([complexity]) The solution works correctly for all test cases. • Self-reported

67.0%

MMMLU

точность • Self-reported

87.7%

SimpleQA

точность • Self-reported

47.0%

TAU-bench Airline

агенты • Self-reported

50.0%

TAU-bench Retail

агенты • Self-reported

70.8%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

17 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

o1

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-4 Turbo

o1-mini

o1-preview

GPT-5 Codex

o3-mini

GPT-3.5 Turbo

o3

GPT-4.5