o1
Исследовательская предварительная модель, ориентированная на математические и логические способности рассуждения, демонстрирующая улучшенную производительность при выполнении задач, требующих пошагового рассуждения, решения математических задач и генерации кода. Модель показывает расширенные возможности формального рассуждения при сохранении сильных общих способностей.
Основные характеристики
Параметры
-
Контекст
200.0K
Дата выпуска
17 декабря 2024 г.
Средний балл
71.6%
Временная шкала
Ключевые даты в истории модели
Анонс
17 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$15.00
Выход (за 1М токенов)
$60.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
100.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
pass@1
Используется для измерения доли запросов, которые модель решает правильно за одну попытку без вариантов. Это измерение "сырой" способности модели отвечать на первую попытку. Такая метрика в основном применяется к задачам, где существует единственный правильный ответ или решение, например, к математическим задачам.
pass@1 особенно важен для оценки способности модели без посторонней помощи (например, без использования кода или внешних инструментов), и отражает, насколько хорошо модель может выдавать ответы непосредственно при первом подходе. • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
В pass@1 мы оцениваем модель, позволяя ей генерировать ответ только один раз. Модель просто отвечает на вопрос и указывает её финальный ответ, после чего мы оцениваем этот ответ как правильный или неправильный. Это аналогично подходу, используемому в большинстве недавних сравнительных оценок (например, MMLU, GPQA). • Self-reported
SWE-Bench Verified
Верифицированный
AI: Переведи этот технический текст:
Embedding Token Retrieval
Many language models offer an embedding API for mapping text to a vector representation, which can be used to measure semantic similarity between different texts. We leverage embedding models to "look up" tokens or approximate contexts inside the language model weight space.
In our main implementation, we estimate the similarity of arbitrary tokens $x_{\text{in}}$ to $x_{\text{out}}$ with respect to a target model by embedding both tokens with the model's own embedding method and computing cosine similarity.
For models where we do not have access to a "text → embedding" API, we construct a proxy metric using inputs of the form, "x_in is most similar to:" and averaging the log probabilities of candidate outputs following the prompt. The resulting "similarity metric" can be used in a variety of targeted editing techniques. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
pass@1
AI: Вероятность того, что модель решит задачу за одну попытку.
При вычислении "pass@1" мы просим модель решить задачу один раз. Затем мы проверяем, правильный ли ответ она получила.
Чтобы рассчитать pass@1 для набора задач, мы вычисляем среднюю успешность модели по всем задачам. • Self-reported
MATH
pass@1
Прохождение с первой попытки. Этот показатель используется для тестирования задач, имеющих множество возможных решений, но только одно из них принимается как правильное (например, генерация кода или решение математических задач). При этом модель пытается решить задачу только один раз без дополнительных попыток. Этот показатель отражает процент правильных ответов с первой попытки. • Self-reported
MGSM
pass@1
Этот метод измеряет долю задач, которые модель решает правильно с первой попытки, когда у неё есть только один шанс на решение. Это строгая метрика, не допускающая нескольких попыток или обратной связи.
В отличие от методов, где модели предоставляется несколько шансов (например, pass@k при k > 1), pass@1 требует успеха при первом же ответе. Это отражает способность модели решать задачи без возможности исправления или доработки решения.
pass@1 особенно ценен для оценки надёжности систем, которые должны работать с первого раза в реальных сценариях, где нет возможности перепробовать несколько вариантов.
Чтобы вычислить pass@1, простым способом является:
1. Предоставление модели набора задач
2. Сбор первого ответа на каждую задачу
3. Оценка правильности каждого ответа
4. Расчёт доли правильных ответов • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
точность • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MathVista
Сдача с первой попытки
Chatbot: ChatGPT (gpt-4-turbo)
Temperature: 1.0 • Self-reported
MMMU
pass@1
Проход с первого раза (pass@1) — это метрика оценки производительности крупных языковых моделей в задачах типа вопрос-ответ и решения задач, особенно в контексте одношаговых рассуждений.
В отличие от сравнения с эталонными ответами, pass@1 измеряет вероятность того, что модель предоставит правильный ответ с первой попытки, без повторных попыток или итераций. Это особенно важно для сценариев, где требуется высокая точность с первого раза.
Для вычисления pass@1 обычно используется следующий метод:
1. Модели предоставляется задание или вопрос
2. Оценивается первый ответ модели (часто с помощью человеческих экспертов или автоматизированных методов оценки)
3. Результат выражается как доля правильных ответов с первой попытки по всему набору задач
Эта метрика считается более строгой, чем метрики, допускающие несколько попыток, и лучше отражает реальную полезность модели в практических приложениях. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
точность • Self-reported
FrontierMath
pass@1
Суть pass@1 - предсказать, какой ответ будет правильным с первой попытки. Для этой метрики мы просим LLM генерировать несколько ответов (обычно 5-10) на одну и ту же задачу, а затем просим модель ранжировать эти ответы по качеству. Если лучший ответ по оценке модели верный, мы считаем, что модель решила задачу с первой попытки.
pass@1 оценивает способность модели не только находить решение, но и правильно оценивать, какое из решений верное. Это важно в реальных сценариях использования, где пользователь хочет получить правильный ответ сразу, а не перебирать несколько вариантов.
Одно из преимуществ этой метрики в том, что она обеспечивает более стабильную оценку возможностей модели, поскольку она снижает влияние случайности при генерации одиночного ответа. • Self-reported
GPQA Biology
Pass@1 — это мера способности модели решать задачу, когда ей предоставляется только одна попытка. Это наиболее распространенный сценарий использования больших языковых моделей в реальном мире, где обычно требуется правильный ответ с первого раза.
В контексте задач с дискретными ответами (например, задачи с множественным выбором), pass@1 измеряет вероятность того, что модель выберет правильный ответ с первой попытки. Для задач, требующих генерации ответа (например, математические задачи или программирование), pass@1 оценивает, насколько часто модель генерирует корректное решение с первой попытки.
Pass@1 представляет собой строгую метрику оценки, поскольку не допускает дополнительных попыток или возможности исправить первоначальные ошибки. Она особенно важна в приложениях, где надежность и точность имеют решающее значение, и где пользователи полагаются на получение правильного ответа сразу. • Self-reported
GPQA Chemistry
Успех с первой попытки
AI: Переведи следующий текст на русский язык. Сохрани все технические термины и аббревиатуры на английском языке. • Self-reported
GPQA Physics
pass@1
Этот метрический показатель измеряет, насколько хорошо модель решает задачу с первой попытки. Например, на задаче из нескольких ответов с четырьмя вариантами, если вы задаете модели вопрос один раз и она отвечает правильно, то это pass@1 = 1.0. Если модель дает неправильный ответ, то pass@1 = 0.0. Мы могли бы рассчитать среднее значение pass@1 по набору задач, чтобы получить общий показатель pass@1 для этого набора задач.
Это отличается от другой метрики: accuracy@k, которая измеряет, входит ли правильный ответ в топ-k предсказаний модели. pass@1 соответствует accuracy@1, но они не эквивалентны. pass@1 измеряет способность модели ответить верно за одну попытку, в то время как accuracy@k допускает несколько попыток. • Self-reported
LiveBench
Кодирование
AI: I'll solve this coding problem step by step.
First, let me understand what the problem is asking:
- We need to implement a function that [problem description]
- Input: [description of input format and constraints]
- Output: [description of expected output]
Let me think about the algorithm:
1. [First algorithmic step]
2. [Second algorithmic step]
3. [Third algorithmic step]
Now, I'll implement the solution in code:
```python
def solution(input_data):
# Initialize variables
result = []
# Process the input
for item in input_data:
# Apply the algorithm steps
processed_item = process_item(item)
result.append(processed_item)
# Return the final result
return result
def process_item(item):
# Implementation of processing logic
return transformed_item
```
Let me test this solution with a few examples:
- Example 1: [example input] → [expected output]
- Example 2: [example input] → [expected output]
Time complexity: O([complexity])
Space complexity: O([complexity])
The solution works correctly for all test cases. • Self-reported
MMMLU
точность • Self-reported
SimpleQA
точность • Self-reported
TAU-bench Airline
агенты • Self-reported
TAU-bench Retail
агенты • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
17 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGPT-4 Turbo
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:апр. 2024 г.
Цена:$10.00/1M токенов
o1-mini
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:сент. 2024 г.
Цена:$3.00/1M токенов
o1-preview
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:сент. 2024 г.
Цена:$15.00/1M токенов
o3-mini
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:янв. 2025 г.
Цена:$1.10/1M токенов
GPT-3.5 Turbo
OpenAI
Лучший скор:0.7 (MMLU)
Релиз:март 2023 г.
Цена:$0.50/1M токенов
GPT-5 nano
OpenAI
MM
Лучший скор:0.7 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.05/1M токенов
GPT-4
OpenAI
MM
Лучший скор:1.0 (ARC)
Релиз:июнь 2023 г.
Цена:$30.00/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.