Основные характеристики
Параметры
-
Контекст
128.0K
Дата выпуска
9 апреля 2024 г.
Средний балл
78.1%
Временная шкала
Ключевые даты в истории модели
Анонс
9 апреля 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
31 декабря 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$10.00
Выход (за 1М токенов)
$30.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
4.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Вопросы с множественным выбором по 57 предметам (профессиональным и академическим) • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Python-задачи программирования
AI: (In this section, I'll be evaluating the model's ability to write Python code, debug problems, and explain programming concepts.)
For these tasks, I'll assess how the model handles:
- Writing functions with specific requirements
- Debugging existing code
- Explaining algorithms and data structures
- Optimizing code for performance
- Following Python best practices
Tasks will range from simple functions to more complex algorithms and will test both practical coding skills and conceptual understanding.
AI Assistant: (В этом разделе я буду оценивать способность модели писать код на Python, отлаживать проблемы и объяснять концепции программирования.)
В этих задачах я оценю, как модель справляется с:
- Написанием функций с определенными требованиями
- Отладкой существующего кода
- Объяснением алгоритмов и структур данных
- Оптимизацией кода для повышения производительности
- Следованием лучшим практикам Python
Задачи будут варьироваться от простых функций до более сложных алгоритмов и будут проверять как практические навыки кодирования, так и концептуальное понимание. • Self-reported
Математика
Математические задачи и вычисления
MATH
Решение математических задач
AI: Решение математических задач • Self-reported
MGSM
Задачи по математике для начальной школы
AI: Мы исследуем и сравниваем, насколько хорошо различные модели решают простые математические задачи-истории, включая арифметику и базовую алгебру, которые обычно представлены в учебной программе с 3 по 8 класс.
Метрика: Точность решения для 80 отобранных примеров с ручной проверкой, чтобы гарантировать, что ответы решены корректно, а не только совпадают с предоставленным ответом.
Пример задачи: "У Джейн было 5 наклеек. Затем она купила коробку с 7 наклейками. После этого она дала 3 наклейки своему другу. Сколько наклеек у нее осталось?"
Процесс решения:
- Начальное количество наклеек у Джейн: 5
- Джейн купила ещё 7 наклеек: 5 + 7 = 12
- Затем Джейн отдала 3 наклейки: 12 - 3 = 9
- Ответ: 9 наклеек • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
Понимание прочитанного и арифметика (f1 score) • Self-reported
GPQA
Ответы на вопросы общего назначения
AI: Human: We evaluate all of our models on two challenging question-answering benchmarks: Measuring Massive Multitask Language Understanding (MMLU) (Hendrycks et al., 2021) and General-Purpose Question Answering (GPQA) (Rein et al., 2023). MMLU is a well-established benchmark assessing performance across 57 different knowledge domains, using multiple-choice questions. GPQA, which is much more challenging than MMLU, evaluates models on a set of 448 manually crafted questions with open-ended answers in STEM and humanities domains, including questions that require novel reasoning rather than recall of known facts. In all of these experiments, models generate answers using greedy decoding (beam size = 1). • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
9 апреля 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиo1-mini
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:сент. 2024 г.
Цена:$3.00/1M токенов
o1
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$15.00/1M токенов
o1-preview
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:сент. 2024 г.
Цена:$15.00/1M токенов
o3-mini
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:янв. 2025 г.
Цена:$1.10/1M токенов
GPT-3.5 Turbo
OpenAI
Лучший скор:0.7 (MMLU)
Релиз:март 2023 г.
Цена:$0.50/1M токенов
GPT-4
OpenAI
MM
Лучший скор:1.0 (ARC)
Релиз:июнь 2023 г.
Цена:$30.00/1M токенов
GPT-4o mini
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
o3
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.