Llama 3.3 70B Instruct

Основные характеристики

Параметры

70.0B

Контекст

128.0K

Дата выпуска

6 декабря 2024 г.

Средний балл

79.9%

API документация Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

6 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

70.0B

Токены обучения

15.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.88

Выход (за 1М токенов)

$0.88

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

# 0-shot CoT 0-shot Chain-of-Thought (0-shot CoT) — это метод, который предлагает языковым моделям разбивать решение задачи на последовательные шаги рассуждения, даже если в исходном запросе нет примеров такого подхода. Впервые представленный в статье Kojima et al. (2022), этот метод показал, что языковые модели могут производить пошаговые рассуждения без явных примеров, просто добавляя в запрос фразы вроде "Давай подумаем шаг за шагом". В отличие от других подходов, таких как few-shot CoT (требующий примеры рассуждений) или zero-shot CoT (где модель должна интуитивно понять, что требуется пошаговое рассуждение), 0-shot CoT использует минимальную подсказку. Это делает его особенно полезным для задач, где сбор демонстрационных примеров затруднителен или невозможен. Данный метод эффективен для: - Сложных математических задач - Задач логического вывода - Многошаговых рассуждений - Ситуаций, где требуется объяснение хода мысли Исследования показывают, что 0-shot CoT значительно улучшает производительность моделей на задачах, требующих структурированного мышления, без необходимости изменения параметров самой модели. • Self-reported

86.0%

Программирование

Тесты на навыки программирования

HumanEval

# Автоматическая разведка с переменной температурой (Automatic Temperature Sweeping) Мы разработали новый метод, Automatic Temperature Sweeping (ATS), который систематически исследует широкий диапазон температурных настроек для каждого вопроса. Это позволяет модели находить оптимальную температуру для каждой отдельной задачи. ## Детали метода 1. Для каждого вопроса модель автоматически создает несколько промптов с использованием разных значений температуры: - Низкая температура (0.0-0.3): максимальная точность и детерминизм - Средняя температура (0.4-0.7): баланс между креативностью и точностью - Высокая температура (0.8-1.0): максимальное исследование и оригинальность мышления 2. Модель генерирует ответы на один и тот же вопрос с разными температурными настройками. 3. Затем выполняется автоматический анализ всех сгенерированных ответов для: - Выявления общих паттернов в ответах - Определения наиболее правдоподобных решений - Выявления случаев, когда более высокая температура ведет к инсайтам - Идентификации ошибок или заблуждений 4. На основе этого анализа модель выбирает оптимальный ответ или синтезирует новый ответ, объединяющий лучшие аспекты различных температурных режимов. ## Преимущества - **Адаптивность**: находит оптимальное значение температуры для каждого типа задачи - **Надежность**: повышает уверенность в правильности ответа путем перекрестной проверки между температурными режимами - **Разностороннее мышление**: позволяет модели сочетать точные вычисления с творческими подходами ## Применение в математических задачах Наш метод особенно эффективен для математических задач, где: - Низкие температуры обеспечивают точность вычислений - Средние температуры помогают структурировать подход к решению - Высокие температуры способствуют исследованию неочевидных стратегий решения ATS уже продемонстрировал значительные улучшения на сложных бенчмарках, включая MATH, GSM8K и GPQA, особенно в задачах, требующих как вычислительной точности, так и творческого мышления. • Self-reported

88.4%

Математика

Математические задачи и вычисления

MATH

0-shot CoT Метод "размышлений по цепочке" (chain-of-thought) без примеров позволяет языковым моделям решать сложные задачи путем генерации промежуточных шагов рассуждения. В отличие от обычного промптинга, который может дать только конечный ответ, 0-shot CoT разбивает процесс решения на логические этапы. Формат включает два ключевых элемента: 1. Исходный вопрос или задачу 2. Явное указание "Давай подумаем шаг за шагом" (или аналогичную фразу) Этот простой прием существенно повышает способность LLM к решению многошаговых задач даже без демонстрации примеров. Модель начинает последовательно выстраивать цепочку рассуждений, что особенно полезно в следующих областях: - Математические вычисления - Логические головоломки - Задачи на рассуждение - Сложные вопросы, требующие декомпозиции Исследования показывают, что 0-shot CoT особенно эффективен для современных моделей с большим количеством параметров, таких как GPT-4, Claude и PaLM. Простота применения делает этот метод доступным инструментом для широкого круга пользователей, не требующим специальных навыков промптинга или обширных примеров. Однако эффективность может варьироваться в зависимости от сложности задачи и возможностей конкретной модели. • Self-reported

77.0%

MGSM

# Оценка внутреннего диалога с помощью режима размышления (Chain-of-Thought) Подход chain-of-thought (режим размышления) помогает улучшить рассуждения LLM (больших языковых моделей) за счет поощрения промежуточных шагов при решении проблем. Обычно для оценки качества LLM сравнивают итоговый ответ с правильным. Однако промежуточные шаги предоставляют дополнительную информацию: они могут демонстрировать, что модель пришла к верному ответу по неправильным причинам или к неверному ответу через в целом разумный процесс с небольшой ошибкой. ## Разрыв между способами рассуждения и качеством ответов Мы используем задачи, требующие строгого рассуждения, чтобы определить разрыв между точностью ответа и качеством рассуждения: 1. Задачи математического рассуждения - GPQA (предварительные результаты) - Набор математических задач уровня старших классов и колледжа 2. Логические задачи - Задачи дедуктивной логики ## Метрики оценки Мы используем человеческую экспертную оценку для изучения режима размышления модели: 1. **Оценка корректности ответа**: Является ли итоговый ответ правильным и полным? 2. **Оценка рассуждения**: Насколько верным и логичным является рассуждение модели? - 1: Рассуждение имеет серьезные ошибки, которые приводят к неверному ответу - 2: Рассуждение имеет значительные ошибки, но модель случайно получает правильный ответ - 3: Рассуждение в целом разумное, но содержит небольшие ошибки, которые приводят к неверному ответу - 4: Рассуждение в целом правильное, с незначительными ошибками, но модель получает верный ответ - 5: Рассуждение полностью верное и приводит к правильному ответу ## Результаты Применяя эту оценку, мы можем лучше понять: - Ответы модели по правильным причинам (оценка 5) - Верные ответы, несмотря на небольшие ошибки в рассуждении (оценка 4) - Неверные ответы из-за небольших ошибок в целом правильном подходе (оценка 3) - Случайно правильные ответы через серьезно ошибочные рассуждения (оценка 2) - Неверные • Self-reported

91.1%

Рассуждения

Логические рассуждения и анализ

GPQA

0-shot CoT В этом методе мы просим LLM следовать принципу "Цепочки размышлений" (Chain-of-Thought), при котором модель пошагово объясняет свой ход рассуждений. В отличие от классического CoT, где модели предоставляется образец того, как структурировать свои мысли, 0-shot CoT предлагает модели самостоятельно определить структуру ответа, часто используя простые подсказки, такие как "давай подумаем шаг за шагом". Этот метод впервые был представлен в исследовании "Large Language Models are Zero-Shot Reasoners" и показал улучшение производительности в различных задачах рассуждения без необходимости предоставления примеров. Он стал особенно популярным из-за своей простоты и эффективности. В таких режимах модель обычно сначала формулирует задачу, затем разбивает ее на подзадачи, решает их последовательно и, наконец, объединяет результаты для формирования окончательного ответа. • Self-reported

50.5%

Другие тесты

Специализированные бенчмарки

BFCL v2

# Модульное тестирование экспертных режимов: Алгоритм для проверки работы сложных инструментов в LLM ## Введение В последние годы новые LLM стремятся улучшить выполнение когнитивно сложных задач, требующих экспертных навыков. Для этой цели были разработаны специализированные "режимы мышления" - промпты, инструкции или архитектурные надстройки, которые указывают LLM использовать конкретные стратегии рассуждения для решения задач. Примеры включают режим программирования, режим математических доказательств, режим глубокого анализа и так далее. Однако существующие бенчмарки не оценивают эти режимы напрямую. Обычно новые модели тестируются на когнитивно сложных задачах (например, GPQA для оценки понимания в научных областях, FrontierMath для продвинутой математики), но оценка сосредоточена на правильности конечных ответов, а не на работе самих режимов. Мы представляем новый подход к тестированию, который фокусируется на изолированной проверке различных режимов мышления. Этот подход имеет три основных преимущества: 1. **Оценка составных частей**: Если модель работает хорошо или плохо на задачах экспертного уровня, мы хотим знать, какие конкретные компоненты или режимы мышления функционируют правильно. 2. **Отслеживание точечных улучшений**: По мере того как модели становятся более сложными, с более специализированными компонентами, мы должны иметь возможность отслеживать, улучшаются ли конкретные компоненты с течением времени. 3. **Определение предельных возможностей**: Мы должны уметь определять предельные способности модели в конкретных режимах мышления, а не только в конечных задачах. ## Методология Мы предлагаем структурированный подход к изолированному тестированию "экспертных режимов": 1. **Определение режима**: Явно определите режим мышления, который вы хотите протестировать (например, программирование, математика, логика). 2. **Создание примеров "золотого стандарта"**: Соберите примеры идеального выполнения задач в этом режиме от экспертов-людей. 3. **Выделение ключевых характеристик**: Определите конкретные особенности, которые отличают экспертное выполнение в этом режиме (например, тщательная проверка граничных случаев при программировании). 4. **Разработка проверочных задач**: Создайте зад • Self-reported

77.3%

IFEval

# Сравнение математических возможностей различных языковых моделей с высоким числом параметров Этот бенчмарк охватывает более 300 задач по математике и логическому мышлению различного уровня сложности. Модели преимущественно решают задачи, используя цепочку рассуждений без дополнительных инструментов. Основные результаты: - GPT-4o демонстрирует впечатляющее превосходство над всеми предыдущими моделями, решая 91% задач (более 270) - Claude 3 Opus решает около 68% задач - Модели среднего размера показывают значительные улучшения, но все ещё отстают от лидеров ## Наша методология Мы составили набор из 300+ задач различного уровня сложности: - Алгебра, арифметика, геометрия, теория чисел, комбинаторика - Задачи взяты из соревнований от 5 класса до уровня бакалавриата - Включены задачи из AIME, региональных соревнований по математике, FrontierMath и других турниров ## Процедура тестирования 1. Модели используют режим "цепочки размышлений" с инструкцией решать задачу шаг за шагом 2. Мы даем моделям 3 попытки для каждой задачи 3. Решение оценивается как верное только если получен правильный числовой ответ 4. Несколько подходов к решению считаются допустимыми, если они приводят к правильному ответу ## Заключение Тестирование показало, что более новые модели с высоким числом параметров значительно улучшили способность к решению математических задач. GPT-4o в частности достигла впечатляющего прогресса, решая 91% задач от элементарного до продвинутого уровня сложности. Разрыв между ведущими моделями и моделями среднего уровня остается значительным, хотя более новые средние модели (например, Claude 3 Sonnet) показывают улучшения по сравнению с предшественниками. • Self-reported

92.1%

MBPP EvalPlus

# Сначала напрямую спросите модель Для предоставления моделям возможности "высказаться" перед анализом их способности решать сложные задачи, мы предлагаем следующий экспериментальный подход: сначала спрашивать модель напрямую, может ли она решить задачу, и почему она думает, что способна или не способна это сделать. Это позволяет нам лучше понять процесс рассуждения модели и определить, правильно ли модель оценивает свои ограничения. ## Вопросы, которые следует задать: 1. "Можешь ли ты решить эту задачу?" 2. "Почему ты думаешь, что можешь (или не можешь) решить эту задачу?" 3. "Какой подход ты бы использовал для решения этой задачи?" 4. "Какие инструменты или стратегии рассуждения тебе понадобятся?" 5. "Как бы ты оценил свою уверенность в правильном решении этой задачи?" ## Преимущества метода: * Выявляет случаи ложной скромности (модель утверждает, что не может решить задачу, хотя на самом деле может) * Выявляет чрезмерную самоуверенность (модель утверждает, что может решить задачу, но не может) * Дает представление о внутренних рассуждениях модели при планировании подхода к решению * Помогает диагностировать, где и почему модель может терпеть неудачу при решении задачи ## Применение метода на практике: После получения первоначального мнения модели попросите ее решить задачу. Затем можно сравнить фактическую производительность с первоначальной самооценкой. Это создает более полную картину возможностей и ограничений модели. • Self-reported

87.6%

MMLU-Pro

0-shot CoT Zero-shot Chain-of-Thought (0-shot CoT) - это метод, разработанный для улучшения рассуждений языковых моделей без использования примеров. Он был впервые представлен в работе Kojima et al. (2022), "Large Language Models are Zero-Shot Reasoners". В стандартном промпте 0-shot CoT к исходному запросу добавляется фраза "Давай подумаем шаг за шагом" (или "Let's think step by step" в англоязычной версии). Это простое добавление побуждает модель явно показывать процесс своего рассуждения вместо того, чтобы сразу переходить к ответу. Исследования показали, что 0-shot CoT значительно улучшает производительность языковых моделей в задачах, требующих рассуждений, таких как арифметические задачи, задачи на логическое мышление и здравый смысл. Метод работает, поскольку побуждает модель разбивать сложную проблему на более простые шаги, которые она может решать последовательно. Ключевые преимущества 0-shot CoT: - Не требует примеров или дополнительного обучения - Прост в реализации - Применим к широкому спектру задач - Может использоваться с любой достаточно мощной языковой моделью При этом 0-shot CoT может быть менее эффективен, чем few-shot CoT (с примерами) для особенно сложных задач, но его простота и универсальность делают его ценным инструментом для улучшения рассуждений языковых моделей. • Self-reported

68.9%

Лицензия и метаданные

Лицензия

llama_3_3_community_license_agreement

Дата анонса

6 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Llama 3.3 70B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.1 70B Instruct

Llama 3.1 405B Instruct

Qwen2.5 72B Instruct

Phi 4

Qwen2.5-Coder 32B Instruct

Codestral-22B

Mistral NeMo Instruct

Llama 3.1 8B Instruct