o1-preview

OpenAI

Исследовательская предварительная модель, ориентированная на математические и логические способности к рассуждению, демонстрирующая улучшенную производительность в задачах, требующих пошагового рассуждения, решения математических проблем и генерации кода. Модель показывает расширенные возможности в формальном рассуждении при сохранении сильных общих способностей.

Основные характеристики

Параметры

Контекст

128.0K

Дата выпуска

12 сентября 2024 г.

Средний балл

64.8%

API документация Исследование Репозиторий Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

12 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$15.00

Выход (за 1М токенов)

$60.00

Макс. входящих токенов

128.0K

Макс. исходящих токенов

32.8K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

При выполнении задачи pass@1 генерируется только один ответ на каждую из задач. Это стандартная практика, с которой мы сталкиваемся в повседневном использовании моделей ИИ. При запросе модели выдать ответ на вопрос мы обычно получаем единственный ответ. Если у модели нет возможности получить больше информации или иным образом взаимодействовать, качество первого ответа имеет решающее значение. В нашем анализе pass@1 измеряет долю задач, для которых первый и единственный ответ модели оказался верным. • Self-reported

90.8%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

# Процесс верификации Чтобы проверить, действительно ли GPT-4 Turbo может обеспечить гарантированную точность ответов, мы использовали метод верификации из оригинальной работы по Verified-responses. Мы разработали пятиэтапный процесс: 1. **Генерация ответа**: Мы задаем задачу и просим GPT-4 Turbo дать ответ с приемлемым для него уровнем уверенности. 2. **Запрос обоснования**: Мы просим модель предоставить детальное обоснование своего ответа, побуждая ее тщательно проверить свою работу. 3. **Перепроверка**: Мы просим модель ещё раз проверить своё обоснование и сообщить, уверена ли она в своём ответе. 4. **Запрос уровня уверенности**: Мы просим модель оценить свою уверенность по шкале от 1 до 5. 5. **Явная возможность сказать "не знаю"**: Мы даем модели четкое разрешение сказать "не знаю", если она не полностью уверена в своем ответе. Мы считаем ответ "верифицированным", только если модель сообщает наивысший уровень уверенности (5/5), без колебаний заявляет, что уверена в своем ответе, и предоставляет согласованное обоснование. Если на любом этапе процесса модель выражает сомнение, ответ не считается верифицированным. Этот многоступенчатый процесс побуждает модель к критической самооценке и дает ей множество возможностей признать неопределенность, тем самым снижая вероятность самоуверенных ошибок. • Self-reported

41.3%

Математика

Математические задачи и вычисления

MATH

pass@1 Это показатель, оценивающий вероятность того, что модель даст правильный ответ с первой попытки. Он измеряет долю задач, которые модель решает правильно при однократном запуске без возможности повторения или самокоррекции. Для вычисления этой метрики берется одно решение модели для каждой задачи и определяется доля задач, в которых модель дала правильный ответ. Это строгая мера, поскольку не допускается никаких попыток улучшения или исправления первоначального ответа. Данный показатель особенно важен в контекстах, где требуется немедленный точный ответ, и нет возможности для повторных попыток или размышлений. • Self-reported

85.5%

MGSM

pass@1 Этот метод оценивает, какова вероятность того, что модель получит правильный ответ с первой попытки. Он основан на концепции, что модель может давать разные ответы при различных температурах (то есть при разных уровнях случайности). При использовании pass@1, мы сначала генерируем несколько ответов модели на одну и ту же задачу с разными температурами, а затем оцениваем вероятность правильного ответа с первой попытки. Представим, что мы используем модель для решения задач кодирования. Мы могли бы сгенерировать несколько решений для каждой задачи (например, 100 решений при различных температурах), а затем оценить, какой процент из них правильный. Это дает нам приблизительную вероятность того, что модель получит правильный ответ с первой попытки. Такой подход обеспечивает более надежную оценку возможностей модели, чем просто проверка одного ответа, поскольку учитывает вероятностную природу генеративных моделей. • Self-reported

90.8%

Рассуждения

Логические рассуждения и анализ

GPQA

Pass@1 - это метрика, используемая для оценки эффективности модели при решении задачи за один проход. В отличие от метода проб и ошибок, который позволяет модели делать несколько попыток, pass@1 измеряет способность модели давать правильное решение с первой попытки. Эта метрика особенно важна для оценки способности моделей решать сложные математические и логические задачи, где первое предложенное решение должно быть корректным. Высокий показатель pass@1 указывает на то, что модель обладает глубоким пониманием проблемы и может эффективно применять соответствующие знания и стратегии решения без необходимости в итеративном подходе. При оценке pass@1 модель получает только одну попытку для решения каждой задачи, и результат определяется как доля задач, решенных правильно с первой попытки. Эта метрика считается более строгой и ближе к реальным сценариям использования, где пользователи обычно ожидают точный ответ сразу, а не после серии исправлений. • Self-reported

73.3%

Другие тесты

Специализированные бенчмарки

AIME 2024

Успех с первой попытки AI: Переведи на русский язык следующий текст: Tree-of-thought (ToT) is an important extension of chain-of-thought (CoT) as it allows the LLM to explore multiple thinking paths when solving problems. ToT can be formulated as a search problem over a tree, where nodes are thoughts, and edges represent thinking steps. Since the search space grows exponentially with the problem size, finding an effective search strategy is a core challenge. Prior ToT methods typically resort to naive search strategies that either have limited exploration (e.g., greedy search or beam search) or require a large number of model evaluations (e.g., breadth-first search or Monte Carlo tree search). These constraints severely limit the LLM's potential for solving complex problems. • Self-reported

42.0%

LiveBench

Программирование AI: Содержит ли входной запрос просьбу написать программный код, объяснить код, отладить, переработать, проанализировать или выполнить иные действия, связанные с программированием? Рубрика кодирования охватывает все, что связано с программированием и разработкой программного обеспечения. Она включает написание кода, объяснение кода, поиск ошибок, а также функциональный или стилистический рефакторинг. Например: "Напиши функцию на Python для подсчета слов в строке" "Напиши SQL-запрос для извлечения пользователей, зарегистрированных после 2022 года" "Отладь этот HTML" "Объясни, что делает эта функция JavaScript" "Напиши приложение калькулятора для Android" "Как улучшить это регулярное выражение?" "Преобразуй этот код из R в Python" Сюда также входят запросы на создание разметки HTML, CSS, JSON, YAML и других подобных форматов, даже если они технически не являются исполняемым кодом. • Self-reported

52.3%

SimpleQA

Фактическая точность AI: Я убежден, что модели, обученные на общедоступных интернет-данных, обладают ограниченной способностью хранить редкие знания, особенно в узкоспециализированных областях, таких как проектирование ядерных реакторов. Если конкретный вопрос встречается редко в тренировочных данных модели, ответ, скорее всего, будет ненадежным, независимо от размера модели. • Self-reported

42.4%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

12 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

o1-preview

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-4 Turbo

o1-mini

o1

o3-mini

GPT-3.5 Turbo

GPT-5

o3

GPT-5 mini