HumanEval+
Стандартная оценка
AI: Эволюция работает лучше, если у нас есть четкие сигналы о том, насколько хорошо работают системы, которые мы создаем. Для генеративного ИИ это часто может быть сложной задачей, но это важная часть.
Мы оцениваем свои модели на множестве различных наборов данных и бенчмарков, но здесь описаны некоторые типовые, которые обычно используются в исследовательском сообществе:
* Факты, выраженные естественным языком: Мы тестируем точность наших моделей на различных стандартных наборах данных, которые оценивают их понимание разнообразных тем, таких как наука, медицина, история, литература и право. Например, MMLU — это набор данных из более 14,000 вопросов с множественным выбором, охватывающий 57 предметов. Мы также работаем над новыми типами тестирования для оценки понимания, особенно по темам, требующим более глубоких знаний, например в точных науках.
* Математика и логическое мышление: Мы оцениваем способность моделей решать разные типы математических и логических задач, от базовой арифметики до высшей математики. Мы используем как стандартные тесты в этой области (например, MATH и GSM8K), так и разрабатываем новые, более сложные тесты, чтобы оценить способности наших моделей в решении комплексных задач и их надежность в этих областях.
* Рассуждение и социальный интеллект: Мы измеряем способность моделей к логическому мышлению, пониманию причин и следствий, обоснованию с учетом здравого смысла, а также способность интерпретировать человеческие социальные сигналы, такие как эмоции и намерения. Например, HellaSwag проверяет способность модели выбрать наиболее естественное продолжение повествования, что требует от нее понимания повседневных ситуаций.
* Кодирование: Мы оцениваем способность наших моделей читать, писать и редактировать код на различных языках программирования, а также решать разные задачи программирования, понимать кодовые базы и отвечать на вопросы о коде. Мы используем оценочные наборы данных, такие как HumanEval для Python, MBPP для различных языков программирования и Natural2Code для более разнообразных задач. • Self-reported