Основные характеристики
Параметры
70.0B
Контекст
-
Дата выпуска
1 октября 2024 г.
Средний балл
67.9%
Временная шкала
Ключевые даты в истории модели
Анонс
1 октября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
70.0B
Токены обучения
-
Граница знаний
1 декабря 2023 г.
Семейство
-
Файн-тюнинг от
llama-3.1-70b-instruct
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
Стандартная оценка
AI: Предоставленные решения были созданы с использованием Claude 3 Opus и моделей семейства GPT.
Экспертная оценка (человеческая):
Для получения надежной оценки качества сгенерированных решений, экспертный математик вручную оценил ответы, данные различными моделями. Эксперт использовал следующие критерии для определения корректности решения:
- Правильное решение (CR): Решение является полностью правильным и включает все необходимые шаги и аргументацию.
- Частично правильное решение (PR): Решение содержит правильные идеи, но имеет ошибки или упускает некоторые важные шаги.
- Неправильное решение (WR): Решение содержит серьезные ошибки и не ведет к правильному результату.
Автоматическая оценка:
Мы дополнительно использовали методы автоматической оценки, чтобы проверить согласованность с человеческими экспертными оценками и для анализа ответов на более обширных наборах данных. Для этого мы использовали:
1. Оценку с помощью модели: GPT-4 использовался для оценки ответов, следуя тем же критериям, что и человеческий эксперт (CR, PR, WR).
2. Извлечение финального ответа: Для задач с численным ответом мы использовали GPT-4 для извлечения финального численного результата из полного решения и сравнивали его с верным ответом. • Self-reported
MMLU
Standard evaluation
Стандартная оценка
AI: Beyond the binary: Tracking AI capabilities in the large language model era
In 'AI: Beyond the binary,' we take a different approach to analyzing model capabilities. Rather than focusing on standard metrics like accuracy or a binary "succeeded/failed" on a benchmark, we dive deeper.
We explore how an LLM tackles a problem, examining patterns in its solutions, creativity, errors, and reasoning. This comprehensive evaluation reveals the true capabilities of models, showing where they excel, struggle, and how they might be improved.
For example, on math problems, we don't just look at the final answer, but analyze the solution path: What approach did the model choose? Where did it make calculation errors? Did it properly decompose the problem? These insights help distinguish between conceptual understanding and execution issues.
Our goal is to provide a richer, more nuanced understanding of AI systems that goes beyond simplistic benchmarks, focusing on how models reason and approach complex tasks. • Self-reported
TruthfulQA
Стандартная оценка
AI: ChatBot
Model: unknown
Accuracy: unknown
Approach:
For standard evaluation we use GPT-4 to evaluate the GPTEval answers. We follow the GPTEval approach as outlined in the Chatbot Arena. As GPTEval can't reliably report the correctness of mathematical answers, we performed human evaluation as well, see below.
We primarily use closed book evaluation, as we wanted to measure the intrinsic knowledge of the model, rather than its capabilities for reasoning with external knowledge provided to it.
Human evaluation
We sample 100 problems from GPQA and have them evaluated by three different judges. They are instructed to give a correctness score of 0 (completely wrong), 0.5 (partially correct, for multi-step problems, but with major issues), 0.75 (minor mistakes but almost there), and 1 (correct). The GPTEval system produced scores that were 14% higher than human scores for the GPT-4o model, and had a correlation of 0.734 with human scores. We also report the human error rates below.
AI: ChatBot
AI evaluation:
Correlation with human judgment: unknown
Human evaluation:
Sample size: unknown
Correctness scale: unknown
Evaluation: unknown • Self-reported
Winogrande
Стандартная оценка
AI: ChatLift-7B
Дата и время: 2024-04-10 16:21:55
Режим: нормальный режим ChatGPT
Запрос:
"Докажи, что если квадратный трехчлен 𝑥² − 4𝑎𝑥 + 4𝑎² + 𝑏 не имеет вещественных корней, то 𝑏 > 0."
Ответ:
Давайте начнем с анализа квадратного трехчлена 𝑥² − 4𝑎𝑥 + 4𝑎² + 𝑏.
Чтобы определить, имеет ли квадратный трехчлен вещественные корни, нам нужно проверить его дискриминант. Трехчлен ax² + bx + c имеет вещественные корни тогда и только тогда, когда дискриминант D = b² - 4ac ≥ 0.
В нашем случае трехчлен имеет форму 𝑥² − 4𝑎𝑥 + 4𝑎² + 𝑏, то есть a = 1, b = -4a, c = 4a² + b.
Дискриминант равен:
D = b² - 4ac
D = (-4a)² - 4(1)(4a² + b)
D = 16a² - 16a² - 4b
D = -4b
Трехчлен не имеет вещественных корней, если D < 0.
То есть -4b < 0.
Это эквивалентно b > 0.
Таким образом, мы доказали, что если квадратный трехчлен 𝑥² − 4𝑎𝑥 + 4𝑎² + 𝑏 не имеет вещественных корней, то 𝑏 > 0.
Заключение: В этой задаче модель правильно вычислила дискриминант квадратного трехчлена и сделала верный вывод. Рассуждение является математически корректным и хорошо структурированным. • Self-reported
Математика
Математические задачи и вычисления
GSM8k
Стандартная оценка
AI: более мощные модели могут решать всё более сложные математические задачи.
Мотивация: математика предоставляет чёткую структуру для измерения прогресса в рассуждениях. На этой структуре могут быть построены и другие формы рассуждений.
Измерение прогресса:
- Производительность на задачах соревновательной математики (AIME, IMO)
- Производительность на задачах из математических журналов
- Способность доказывать новые теоремы
Определение предела: пределы масштабирования на математических задачах сигнализируют о проблемах с обобщающей способностью или отсутствии идей.
Открытые вопросы: когда алгоритмические подходы (например, формальная верификация) заменят статистические методы для решения сложных задач? • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
Стандартная оценка
AI: Пройдите тест
Человек: Используйте модель, чтобы пройти заданный тест. Этот тест может представлять собой любой эталонный тест, в том числе несколько заданий. Для каждого задания следует записать:
- Что было запрошено
- Окончательный ответ модели
- Правильный ответ
- Общая оценка (правильно/неправильно)
Аналитик: Аналитик наблюдает за тем, как модель отвечает на вопросы эталонного теста, и оценивает ее ответы как правильные или неправильные по сравнению с опубликованными эталонными ответами.
Эта процедура полезна для оценки общей способности модели отвечать на различные типы вопросов или проходить стандартные тесты, такие как тесты для поступления в магистратуру или задания по математике. Это стандартный подход к оценке моделей и не требует особых инструкций для аналитика, кроме точной оценки ответов модели по сравнению с правильными ответами. • Self-reported
GSM8K Chat
# Анализ по задачам
Мы провели более детальный анализ производительности Claude 3 Opus и GPT-4 на разных подкатегориях задач в нашем наборе оценок. Поскольку эти задачи охватывают широкий спектр навыков, от математики до разного рода рассуждений и абстрактного мышления, мы надеемся, что этот анализ даст более тонкое представление о сильных и слабых сторонах этих моделей.
## Математика
Мы оценили GPT-4 и Claude 3 Opus на наборе из 80 задач по математике разного уровня сложности, от базового до высшего уровня. Эти задачи включали вопросы из алгебры, геометрии, комбинаторики, теории чисел и анализа. Многие из них были взяты из известных математических соревнований, таких как American Invitational Mathematics Examination (AIME) и Harvard-MIT Mathematics Tournament.
Результаты показывают явное превосходство Claude 3 Opus в этой области, с общей точностью 59% по сравнению с 40% у GPT-4. Это означает улучшение на 47.5% относительно GPT-4. Интересно, что Claude 3 Opus превосходит GPT-4 во всех категориях математических задач, причем наибольший разрыв наблюдается в наиболее сложных задачах. Например, на задачах AIME Claude 3 Opus достигает точности 52%, в то время как GPT-4 — только 22%.
Мы также наблюдаем, что когда модели ошибаются, Claude 3 Opus, как правило, ошибается менее серьезно. Например, на вычислительных задачах, где модели должны выполнить серию операций, Claude 3 Opus чаще допускает небольшие арифметические ошибки, в то время как GPT-4 более склонен следовать неверному подходу, который не приводит к правильному ответу.
## Кодирование
Для оценки способностей кодирования мы использовали 50 задач, охватывающих различные аспекты программирования, от основных алгоритмов до сложных структур данных и паттернов проектирования. Задачи были разработаны так, чтобы проверить не только техническую правильность кода моделей, но и их понимание более широких принципов программирования.
В этой категории GPT-4 немного превосходит Claude 3 Opus, с точностью 72% против 68% у Claude 3 Opus. Однако мы заметили, что типы ошибок, допускаемые моделями, различаются. GPT-4, как правило, более последователен в использовании передовых • Self-reported
Instruct HumanEval
Оценка кода (n=20)
AI: For this task we had 20 prompts that asked LLMs to critique and fix a piece of buggy code. The code examples came from Python code snippets with an assortment of bugs including algorithmic issues, syntax errors, and semantic bugs. We evaluated LLM responses based on their ability to:
1. Correctly identify the bug in the code
2. Provide a working fix
3. Explain why the bug occurred and how the fix solves it • Self-reported
MMLU Chat
Сравнение подходов к повышению точности вычислений
Мы сравниваем точность различных подходов к вычислениям с использованием GPT-4, фокусируясь на MathVista-подобных задачах и задачах из набора данных GSM8K. Мы исследуем следующие техники повышения точности:
1. **Базовый режим**: Стандартное взаимодействие с моделью, предоставляя ей задачу и получая прямой ответ.
2. **Режим размышления**: Просим модель детально обосновать свой ответ, шаг за шагом, перед предоставлением финального ответа.
3. **Многократные пробы (с голосованием)**: Генерируем несколько независимых решений для одной и той же задачи, затем выбираем наиболее распространенный ответ.
4. **Проверка решения**: После получения ответа от модели, просим ее проверить свое решение, чтобы найти и исправить ошибки.
5. **Решение подзадач**: Разбиваем сложную задачу на более простые подзадачи, решаем их по отдельности, затем объединяем результаты.
Наш анализ показывает, что комбинация "режима размышления" с "проверкой решения" дает наибольшее повышение точности, особенно в сложных математических задачах. Многократные пробы также значительно улучшают результаты, но с повышенными вычислительными затратами. Интересно, что разбиение на подзадачи показывает меньшую эффективность в визуальных математических задачах по сравнению с текстовыми задачами, вероятно из-за сложности разделения визуальной информации. • Self-reported
MT-Bench
Метод оценки изменений (MEC) - это протокол сравнения двух версий одной и той же модели по заданной исследовательской задаче. MEC стремится дать ответ на вопрос: «Какая версия модели лучше выполняет исследовательскую задачу T?»
MEC использует два основных компонента:
- Набор подзадач с золотым стандартом для оценки модели
- Оценщик модели, который оценивает ответы разных моделей
Эти подзадачи с золотым стандартом могут быть получены из существующих исследовательских задач, бенчмарков или сгенерированы. Мы хотим, чтобы они представляли все, что нам интересно в исследовательской задаче.
Оценка модели может быть выполнена с помощью людей или автоматизированного оценщика, такого как GPT-4. Подход к оценке должен соответствовать тому, что мы ищем при решении исследовательской задачи. Золотой стандарт подзадач имеет решающее значение для объективной оценки.
При использовании метода:
1. Возьмите базовую и экспериментальную версии модели
2. Обе версии решают одни и те же подзадачи с золотым стандартом
3. Оценщик оценивает ответы от обеих версий, не зная, какая версия их создала
4. Сравните оценки, чтобы определить, какая версия лучше
MEC подходит для проверки небольших изменений в модели, когда полная оценка на всех бенчмарках может быть дорогостоящей. Он также полезен для получения подробной обратной связи о том, какие конкретные аспекты модели улучшились или ухудшились. • Self-reported
XLSum English
Стандартная оценка
AI: A machine learning assistant trained to be helpful, harmless, and honest. • Self-reported
Лицензия и метаданные
Лицензия
llama_3_1_community_license
Дата анонса
1 октября 2024 г.
Последнее обновление
19 июля 2025 г.