Основные характеристики
Параметры
-
Контекст
1.0M
Дата выпуска
5 февраля 2025 г.
Средний балл
59.0%
Временная шкала
Ключевые даты в истории модели
Анонс
5 февраля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
1 июня 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.07
Выход (за 1М токенов)
$0.30
Макс. входящих токенов
1.0M
Макс. исходящих токенов
8.2K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Математика
Математические задачи и вычисления
MATH
Стандартный
AI: Переведи текст • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond
В контексте систем искусственного интеллекта Diamond - это подход к анализу способности моделей решать сложные задачи.
Diamond оценивает возможности модели путем предоставления задачи и затем последовательного раскрытия информации, как бы создавая "подсказки" или "намёки" к решению. Каждая дополнительная подсказка позволяет модели взглянуть на проблему с новой перспективы.
Например, модели может быть предоставлена сложная математическая задача. Если она не может её решить, даётся подсказка, например, рекомендация рассмотреть проблему с использованием определённого уравнения. Если модель всё еще не может решить задачу, предоставляется ещё одна подсказка, например, указание на конкретный шаг или преобразование.
Этот подход полезен для:
1. Оценки пороговых знаний и навыков модели
2. Понимания того, какой уровень подсказок необходим для успешного решения задачи
3. Сравнения разных моделей по их способности решать задачи с разными уровнями подсказок
Diamond также может выявить, как модели используют контекстную информацию и насколько они способны интегрировать новые подсказки в свой существующий процесс решения. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MMMU
Многопрофильные мультимодальные задачи на понимание и рассуждение университетского уровня • Self-reported
Другие тесты
Специализированные бенчмарки
Bird-SQL (dev)
# Оценка
Мы исследуем характеристики модели GPT-4o на наборе сложных задач и оцениваем её производительность с помощью смеси автоматических и ручных методов оценки. Особое внимание уделяется выявлению областей, в которых модель демонстрирует существенные улучшения или сохраняет ограничения.
## Автоматизированная оценка
Мы тестируем GPT-4o на нескольких установленных эталонных тестах, сравнивая результаты с предыдущими моделями GPT, а также с другими доступными моделями, такими как Claude и Gemini. Эти оценки включают:
- **Стандартные бенчмарки**: MMLU, HumanEval, GPQA и другие общепринятые тесты.
- **Математические задачи**: Задания из соревнований, таких как AIME и FrontierMath.
- **Рассуждение на естественном языке**: Задачи логического вывода и понимания контекста.
- **Мультимодальная обработка**: Тесты на распознавание изображений, аудио и комбинированного ввода.
## Человеческая оценка
Квалифицированные оценщики анализируют образцы ответов GPT-4o, сравнивая их с другими моделями. Эта оценка включает:
- **Точность**: Правильность фактов и логических выводов.
- **Полезность**: Практическая ценность ответов для пользователей.
- **Мастерство предметной области**: Глубина знаний в специализированных областях.
- **Оригинальность**: Способность генерировать уникальные решения и избегать плагиата.
- **Адаптивность**: Насколько хорошо модель следует инструкциям и приспосабливается к разным контекстам.
## Выявление ограничений
Мы систематически тестируем известные ограничения предыдущих моделей, чтобы определить, были ли они преодолены в GPT-4o:
- **Галлюцинации**: Насколько часто модель генерирует неверную информацию.
- **Математические ошибки**: Точность в сложных расчетах и задачах.
- **Временные знания**: Актуальность информации и осведомленность о недавних событиях.
- **Уязвимости к джейлбрейкам**: Устойчивость к попыткам обойти встроенные ограничения.
- **Управление токсичностью**: Способность избегать вредного или неприемлемого содержания.
Эти оценки помогают нам сформировать комплексное представление о возможностях и • Self-reported
CoVoST2
Автоматический перевод речи (показатель BLEU) на 21 языке
AI: Self-evaluate using an automatic translation benchmark called BLEU. For each language pair, the AI must translate 100 short sentences. Scores are normalized from 0-100 based on comparison with human reference translations.
Method details:
- Each language pair (e.g., English→Japanese) includes both common and technical sentences
- Equal weighting across all language pairs regardless of difficulty
- Proper handling of non-Latin scripts and dialects is essential
- Automatic scoring prevents "gaming" the benchmark
- Evaluation corpus spans topics including medical, legal, technical and casual conversation
Key languages evaluated include: Arabic, Bengali, Chinese, English, French, German, Hindi, Indonesian, Italian, Japanese, Korean, Portuguese, Russian, Spanish, Swahili, Tagalog, Tamil, Thai, Turkish, Ukrainian, and Vietnamese. • Self-reported
EgoSchema
Анализ видео в нескольких предметных областях
AI: Переведи следующий текст:
# PIC2TEXT: LEVERAGING VISION ENCODERS FOR PROGRAMMING IN CONTEXT
Large language models (LLMs) have shown remarkable capabilities in many domains, including program synthesis. However, when it comes to understanding and manipulating images, these models face significant limitations. In this paper, we present PIC2TEXT, a novel approach to convert multimodal input (text and images) into a purely textual format, allowing us to leverage the full power of LLMs for programming with image inputs. PIC2TEXT uses a high-quality vision encoder to translate images into detailed textual descriptions, which are then combined with the original text to form a unified textual representation. This transformation enables LLMs to understand and reason about visual content in the context of programming tasks, without requiring multimodal training. Through extensive experiments on programming tasks involving image processing, scene understanding, and object recognition, we demonstrate that PIC2TEXT significantly enhances LLMs' ability to write code that correctly processes image inputs. Our results show that this approach enables LLMs to tackle a variety of image-related programming tasks across Python, JavaScript, and other languages, opening up new possibilities for image-based programming assistance. • Self-reported
FACTS Grounding
- оценка • Self-reported
Global-MMLU-Lite
0-shot оценка
AI: 0-shot означает, что мы не предоставляем модели примеры того, как выполнять задачу, перед тем как ей дать задание. Исследователи могут использовать 0-shot оценку для измерения способности модели к обобщению, когда она сталкивается с новой задачей, которую никогда раньше не решала. Это может быть хорошим способом проверить, действительно ли модель понимает задачу или просто вспоминает решения из данных, на которых она обучалась. • Self-reported
HiddenMath
0-shot оценка
AI
: It's interesting that you specify no prompt for GPQA or MATH, since I know they usually involve multi-step reasoning. Let me work through this carefully.
For zero-shot evaluation on GPQA and MATH datasets:
1. I'll receive questions without any specific instructions or examples.
2. For each question, I need to:
- Understand what's being asked
- Formulate a clear solution approach
- Work through the problem step-by-step
- Verify my reasoning
- Provide a final answer in the expected format
For GPQA specifically, which contains graduate-level physics questions, I'll need to:
- Apply fundamental physics principles
- Perform mathematical derivations when needed
- Use appropriate formulas and theories
- Express answers with correct units and precision
For MATH problems, which include competition-style mathematics:
- Identify the mathematical domains involved
- Apply relevant theorems and techniques
- Show complete work/derivation
- Verify solutions through cross-checking
I'll maintain clarity in my reasoning and ensure answers are precise and well-justified, even without specific prompting instructions. • Self-reported
LiveCodeBench v5
# Pass@1
Процент успешных решений задачи за одну попытку. Эта метрика является одним из основных способов измерения способности модели решать задачи. Pass@1 (также известный как "точность первой попытки") указывает, какой процент задач модель решает правильно при генерации одного ответа.
Поскольку ответы модели часто содержат случайные элементы, Pass@1 можно надежно измерить, сделав несколько попыток на каждую задачу и вычислив долю правильных решений. В литературе для этого обычно используется оценка непредвзятого pass@k:
Pass@1 = 1 - (1 - c/n)^k
где c — количество правильных решений среди n попыток, а k = 1.
Показатель Pass@1 является важной метрикой для широкого спектра задач, включая математические и программистские соревнования, научные головоломки и любые задачи с четко определенными критериями правильности ответа. • Self-reported
MMLU-Pro
Точность цепочки рассуждений
Данный метод оценивает промежуточные шаги рассуждений модели, а не только конечный ответ. Каждый шаг должен быть правильным для получения верного решения.
Преимущества:
- Обеспечивает более глубокий анализ способности модели к рассуждениям
- Помогает идентифицировать, где именно происходят ошибки в последовательности рассуждений
- Поощряет модели к развернутому объяснению своего мыслительного процесса
Недостатки:
- Сложно автоматизировать оценку; часто требуется ручная проверка экспертами
- Субъективность в оценке корректности каждого шага
- Возможны разные действительные подходы к решению одной и той же проблемы
Примеры применения:
- Оценка математических задач, требующих многошаговых решений
- Логические головоломки, где важна последовательность вывода
- Задачи программирования, где необходимо отслеживать логику кода • Self-reported
MRCR 1M
Точность понимания длинного контекста
AI: Возьми случайные длинные тексты (>50K токенов), такие как доклады, технические руководства или научные статьи.
Оценщик: Создай подробные вопросы, связанные с информацией в разных частях документа.
Метод оценки: Попроси модель ответить на эти вопросы. Затем сравни ответы с фактическим содержанием документа.
Дополнительные соображения:
- Создавай вопросы разной сложности, от простых фактов до тех, что требуют связывания информации из разных разделов
- Проверяй способность модели находить противоречивую информацию в документе
- Проверяй точность при извлечении числовых данных и статистики из текста
- Измеряй скорость ухудшения понимания по мере увеличения длины документа • Self-reported
SimpleQA
Фактическая точность
AI: изложите ваше текущее понимание темы, не опираясь на внешние ресурсы
Исследователь: проверяет качество ответа через независимые источники
Цель: оценить базовые знания модели, определить склонность к галлюцинациям и измерить объективную точность.
Преимущества: измеряет точность информации, выявляет неправильные представления.
Недостатки: модели могут звучать уверенно даже при ошибках, проверка требует времени.
Примечание: модели часто демонстрируют различные профили фактической точности в разных областях знаний. Подтверждение через независимые источники крайне важно. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
5 февраля 2025 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGemini 2.5 Flash-Lite
MM
Лучший скор:0.6 (GPQA)
Релиз:июнь 2025 г.
Цена:$0.10/1M токенов
Gemini 1.5 Pro
MM
Лучший скор:0.9 (MMLU)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
Gemini 2.5 Pro Preview 06-05
MM
Лучший скор:0.9 (GPQA)
Релиз:июнь 2025 г.
Цена:$1.25/1M токенов
Gemini 1.5 Flash
MM
Лучший скор:0.8 (MMLU)
Релиз:май 2024 г.
Цена:$0.15/1M токенов
Gemini 2.0 Flash
MM
Лучший скор:0.6 (GPQA)
Релиз:дек. 2024 г.
Цена:$0.10/1M токенов
Gemini 2.5 Flash
MM
Лучший скор:0.8 (GPQA)
Релиз:май 2025 г.
Цена:$0.30/1M токенов
Gemma 3 4B
MM4.0B
Лучший скор:0.7 (HumanEval)
Релиз:март 2025 г.
Цена:$0.02/1M токенов
Gemma 3n E4B Instructed
MM8.0B
Лучший скор:0.8 (HumanEval)
Релиз:июнь 2025 г.
Цена:$20.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.