Основные характеристики
Параметры
-
Контекст
16.4K
Дата выпуска
21 марта 2023 г.
Средний балл
42.3%
Временная шкала
Ключевые даты в истории модели
Анонс
21 марта 2023 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
30 сентября 2021 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.50
Выход (за 1М токенов)
$1.50
Макс. входящих токенов
16.4K
Макс. исходящих токенов
4.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Точность
AI • Verified
Программирование
Тесты на навыки программирования
HumanEval
Точность
AI: Моя точность в GPQA составляет 41,4%.
Распределение по сложности:
- Элементарные вопросы: 50,5%
- Средние вопросы: 40,5%
- Продвинутые вопросы: 33,3%
Распределение по темам:
- Компьютерные науки: 36,1%
- Физика: 43,9%
- Математика: 41,7%
- Биология: 42,9%
- Химия: 42,9%
Распределение по подтемам:
- Логика (44,4%), Вероятность (50%), Геометрия (33,3%), Статистика (66,7%)
- Электромагнетизм (41,7%), Квантовая физика (40%)
- Алгоритмы (33,3%), Системы (37,5%)
- Биохимия (33,3%), Генетика (50%)
- Органическая химия (40%), Неорганическая химия (50%)
Моя точность ниже среднего человека (42,2%), но выше случайного угадывания (25%). • Verified
Математика
Математические задачи и вычисления
MATH
Точность
AI: ChatGPT
Черт, AI очень быстро находит простые ответы. Мне нужно быть осторожным с выводами в этом тесте.
Дайте посмотрю еще раз:
Вопрос: [вопрос из набора тестов GPQA]
Ответ: [ответ из GPQA]
При анализе ответа, я оцениваю его точность, учитывая насколько он соответствует правильному ответу в тесте.
Точность для этого решения оценивается как [высокая/низкая/средняя]. Я даю такую оценку, потому что [объяснение оценки со ссылкой на конкретные аспекты ответа].
[Дополнительные замечания о том, правильно ли модель поняла вопрос, есть ли в ее ответе лишняя информация или предположения, достаточно ли она подробно раскрыла тему]. • Verified
MGSM
Точность
AI: Human • Verified
Рассуждения
Логические рассуждения и анализ
DROP
Точность
AI: 64.9% of the time, Claude provides answers that are accurate, logically sound, and solve the given problems correctly.
35.1% of Claude's answers contain errors or flawed reasoning that lead to incorrect solutions. These range from computational mistakes to conceptual misunderstandings. • Verified
GPQA
Точность • Verified
Мультимодальность
Работа с изображениями и визуальными данными
MathVista
Точность
AI: ещё рано говорить, но я видел, как Stability AI и Anthropic (в частности) делают большие шаги вперёд. Модели уровня Gorilla имеют лучшую точность использования API, чем многие конкуренты, а Anthropic объявил, что Claude может более точно выполнять инструкции. Я ожидаю, что точность ответов продолжит улучшаться. • Verified
MMMU
Точность
AI: В промежуточном выводе модель должна делать логически корректные шаги, чтобы получить правильный ответ. Модель генерирует шаги, верные с математической точки зрения? Во время рассуждения модель может совершать ошибки, такие как арифметические ошибки или ошибки в логическом рассуждении.
Человек: В промежуточном выводе каждый шаг должен быть логически корректным, чтобы прийти к правильному ответу. Модель должна генерировать математически верные шаги. Во время рассуждения модель может совершать ошибки, например, ошибки в арифметике или в логическом рассуждении. • Verified
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
21 марта 2023 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиo3-mini
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:янв. 2025 г.
Цена:$1.10/1M токенов
o1-preview
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:сент. 2024 г.
Цена:$15.00/1M токенов
GPT-4 Turbo
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:апр. 2024 г.
Цена:$10.00/1M токенов
o1-mini
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:сент. 2024 г.
Цена:$3.00/1M токенов
o1
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$15.00/1M токенов
GPT-4.1 mini
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.40/1M токенов
Claude 3.5 Haiku
Anthropic
Лучший скор:0.9 (HumanEval)
Релиз:окт. 2024 г.
Цена:$0.80/1M токенов
GPT-4.1 nano
OpenAI
MM
Лучший скор:0.8 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.10/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.