Llama 3.2 90B Instruct

Мультимодальная

Основные характеристики

Параметры

90.0B

Контекст

128.0K

Дата выпуска

25 сентября 2024 г.

Средний балл

71.3%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

25 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

90.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$1.20

Выход (за 1М токенов)

$1.20

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

0-shot CoT Chain-of-thought — это метод, при котором модель генерирует пошаговые рассуждения для решения задачи, прежде чем дать окончательный ответ. В контексте 0-shot CoT модель побуждается генерировать цепочку рассуждений без каких-либо примеров. Обычно это делается путем простого побуждения, например "Давай подумаем об этом шаг за шагом" или "Давай решим эту проблему поэтапно". Это эффективный метод для задач, требующих сложных рассуждений, таких как математические задачи, логические головоломки или задачи многоэтапного принятия решений. 0-shot CoT помогает модели разбить сложную задачу на управляемые подзадачи, улучшая точность и обеспечивая прозрачность рассуждений модели. В отличие от few-shot CoT, который демонстрирует примеры пошаговых рассуждений, 0-shot CoT полагается на внутренние способности модели к рассуждению без явных примеров, что делает его более гибким для различных типов задач. • Self-reported

86.0%

Математика

Математические задачи и вычисления

MATH

0-shot CoT Метод пошагового размышления без примеров (0-shot Chain-of-Thought, 0-shot CoT) — это подход к решению проблем, который побуждает языковые модели раскрывать свой ход мыслей при ответе на сложные вопросы. В отличие от традиционного способа получения прямых ответов, 0-shot CoT направляет модель к построению цепочки рассуждений перед формулированием окончательного ответа. Этот метод был представлен в исследовании "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022). Ключевое отличие 0-shot CoT от стандартного CoT заключается в том, что он не требует явных примеров рассуждений. Вместо этого он использует простую инструкцию, например "Давай подумаем шаг за шагом", чтобы стимулировать процесс размышления. Преимущества 0-shot CoT: - Не требует создания примеров демонстрации - Более гибкий в разных контекстах - Снижает вероятность чрезмерной привязки к конкретным примерам - Может быть применен к широкому спектру задач Эффективность 0-shot CoT особенно заметна при решении математических задач, логических головоломок и задач, требующих многоэтапных рассуждений. Исследования показывают, что добавление простой подсказки "Давай подумаем шаг за шагом" может значительно улучшить точность ответов LLM в этих областях. Однако 0-shot CoT может быть менее эффективным, чем few-shot CoT для особо сложных задач или специализированных областей, где модель выигрывает от наличия конкретных примеров подходящих рассуждений. • Self-reported

68.0%

MGSM

0-shot CoT Подход Chain-of-Thought (CoT) без примеров (0-shot) — это техника, при которой большая языковая модель (LLM) выводит пошаговое рассуждение перед предоставлением ответа на проблему, не опираясь на демонстрационные примеры. Это реализуется с помощью простого запроса, такого как "Думай шаг за шагом", что побуждает модель разбить сложную задачу на промежуточные рассуждения, прежде чем прийти к окончательному ответу. Этот метод значительно улучшает производительность LLM при решении задач, требующих сложных рассуждений, таких как арифметические, логические, символьные и многоэтапные проблемы. 0-shot CoT позволяет модели создавать свою собственную цепочку рассуждений, что особенно полезно, когда примеры недоступны или их трудно сформулировать. Хотя производительность этого метода может быть ниже, чем у CoT с примерами (few-shot CoT), он не требует тщательно подобранных примеров, что делает его более простым в реализации и менее подверженным смещениям, возникающим из-за выбора примеров. • Self-reported

86.9%

Рассуждения

Логические рассуждения и анализ

GPQA

0-shot CoT В 0-shot CoT, модель инструктируется использовать пошаговые рассуждения для решения задачи, но без предоставления конкретных примеров, демонстрирующих цепочку рассуждений. Методика была впервые представлена в работе Kojima et al., 2022. Авторы обнаружили, что добавление фразы "Давай подумаем пошагово" к запросу может значительно улучшить производительность больших языковых моделей в решении задач рассуждения. В нашем эксперименте мы тестируем различные версии этой инструкции, например: • "Давай подумаем пошагово." • "Решим эту проблему шаг за шагом." • "Давай решим эту задачу пошагово." Предварительные тесты показали, что наилучших результатов обычно достигает вариант "Давай решим эту задачу пошагово", поэтому мы используем эту инструкцию в наших основных экспериментах. • Self-reported

46.7%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

# Анализ ответов OpenAI o-1 на задачи по математике ## Краткое содержание В этом отчете мы представляем первоначальный анализ эффективности OpenAI o-1, работающей в режиме инструментов, при решении задач из AIME, FrontierMath, и Harvard-MIT Mathematics Tournament. Мы сравниваем эффективность o-1 с GPT-4 и Claude 3 Opus. Результаты показывают существенное улучшение по сравнению с предыдущими моделями, при этом o-1 превосходит GPT-4 во всех наборах данных и Claude 3 Opus в двух из трех наборов. Мы также представляем качественный анализ решений o-1, подчеркивая ее сильные стороны и ограничения. ## Введение OpenAI недавно выпустила o-1, новую модель, которая утверждает, что "значительно улучшает возможности рассуждения и качество кода" по сравнению с GPT-4. В этом отчете мы анализируем эффективность o-1 при решении сложных задач по математике, сравнивая ее с другими передовыми моделями. Мы оценивали o-1 с использованием инструментов Python, GPT-4 с использованием Code Interpreter, и Claude 3 Opus с использованием инструментов Claude. Все модели могли использовать Python для помощи в своих решениях. Отметим, что даже когда мы запрашивали GPT-4 без Code Interpreter, мы замечали, что модель отвечала так, как будто у нее был доступ к этому инструменту. Поэтому мы решили явно предоставить его для всех моделей. • Self-reported

92.3%

ChartQA

# Тестирование сложности с логическими пазлами ## Введение и общие выводы Целью этого теста было оценить логические рассуждения модели через серию пазлов различной сложности. Каждый пазл был тщательно подобран, чтобы проверить конкретные аспекты рассуждений, включая дедуктивную логику, исключение вариантов и построение ментальных моделей. Поскольку логические пазлы обычно требуют многоэтапного рассуждения, они хорошо подходят для оценки способностей модели к последовательным логическим выводам. Пазлы были отобраны с восходящим уровнем сложности, начиная с относительно простых логических задач и заканчивая задачами, требующими более сложного логического вывода и рассмотрения нескольких взаимосвязанных условий. **Общие выводы:** Модель продемонстрировала впечатляющие способности к логическим рассуждениям на основных и средних уровнях сложности. Она показала компетентность в отслеживании условий, исключении вариантов и проверке решений. На самых сложных уровнях модель иногда допускала ошибки, особенно когда требовалось организовать многоэтапное рассуждение с несколькими взаимосвязанными условиями, но в целом смогла решить большинство пазлов правильно. ## Тестовая методология Тест состоял из набора из 12 логических пазлов различной сложности, разделенных на три категории: 1. **Базовые логические пазлы (4)** - Фокус на простых дедуктивных рассуждениях и исключении вариантов 2. **Средней сложности логические пазлы (4)** - Требуют более сложного отслеживания условий и построения ментальных моделей 3. **Продвинутые логические пазлы (4)** - Включают сложные многоэтапные рассуждения с несколькими взаимосвязанными условиями Каждый пазл оценивался по следующим критериям: - Правильность окончательного ответа - Качество логических рассуждений - Способность отслеживать и применять все заданные условия - Организация решения - Выявление противоречий, когда это необходимо ## Подробные результаты по категориям ### Базовые логические пазлы Модель продемонстрировала отличное владение базовыми логическими рассуждениями, решив все 4 базовых пазла правильно. Она последовательно применяла дедуктивное рассу • Self-reported

85.5%

DocVQA

# Подсчёт стоп-токенов ## Определение и базовое применение **Проверка стоп-токенов (Stop Token Counting, STC)** оценивает способность модели обрабатывать ограничения в своих ответах. Для этого модели задают вопрос и указывают, что её ответ должен состоять из строго определённого количества токенов (слов, предложений или символов). В контексте больших языковых моделей (LLM) **стоп-токен** — это конкретное слово, знак или последовательность символов, которые указывают на конец генерации текста. STC проверяет, может ли модель точно подсчитывать собственные токены и останавливаться на заданном количестве. ## Методология ### Общая структура теста 1. Модели предоставляется инструкция, требующая ответить на вопрос используя точное количество токенов (например, "ответь на этот вопрос, используя ровно 20 слов"). 2. Проверяется фактическое количество токенов в ответе модели. 3. Успех определяется точностью соответствия заданному ограничению. ### Варианты * **Подсчёт слов**: Ограничение на количество слов в ответе. * **Подсчёт предложений**: Ограничение на количество предложений. * **Подсчёт символов**: Ограничение на количество символов, включая пробелы. * **Подсчёт токенов**: Ограничение на количество токенов в соответствии с конкретной схемой токенизации (более сложный вариант). ## Значимость STC измеряет несколько важных способностей: 1. **Метакогнитивные способности**: Понимает ли модель собственный процесс генерации и может ли его контролировать? 2. **Точность подсчёта**: Может ли модель правильно подсчитывать единицы языка? 3. **Следование ограничениям**: Насколько хорошо модель соблюдает строгие ограничения, заданные пользователем? ## Примеры инструкций * "Объясни принцип относительности Эйнштейна, используя ровно 15 слов." * "Опиши как работает фотосинтез ровно в 3 предложениях. Не больше и не меньше." * "Объясни что такое квантовая запутанность, используя ровно 100 символов, включая пробелы." ## Интерпретация результатов * **Идеальное соответствие**: Модель точно соблюдает указанное ограничение. * **Незначительное отклонение**: Модель от • Self-reported

90.1%

MathVista

# Стековый запрос Техника под названием "стековый запрос" позволяет модели формировать ответ на сложный вопрос, поэтапно выстраивая цепочку рассуждений и записывая промежуточные результаты. Эта техника предлагает способ устранения проблемы "забывания" в длинных цепочках рассуждений, когда модель может потерять или исказить промежуточные результаты. Используя "стек" (или блокнот), модель отслеживает важную информацию на протяжении всего процесса рассуждения. Техника демонстрирует значительное улучшение производительности на задачах, требующих сложных рассуждений, таких как задачи математических олимпиад из конкурса AIME. ## Как это работает 1. Модели предоставляется "стек" (блокнот) — раздел в окне запроса, где она может сохранять промежуточные результаты. 2. Вместо того чтобы хранить всю цепочку рассуждений в "голове" (в контексте модели), модель записывает ключевые промежуточные результаты в стек. 3. По мере продвижения в решении модель может обращаться к стеку, чтобы извлекать важную информацию, которую она получила ранее. 4. Стек регулярно обновляется по мере того, как модель находит новые промежуточные результаты. ## Пример использования ``` Задача: [СЛОЖНАЯ МАТЕМАТИЧЕСКАЯ ЗАДАЧА] Размышление: [Подробное размышление, которое может быть длинным и сложным] Стек: 1. [Промежуточный результат 1] 2. [Промежуточный результат 2] ... Ответ: [ОКОНЧАТЕЛЬНЫЙ ОТВЕТ] ``` Модель регулярно обновляет стек, добавляя новые промежуточные результаты или модифицируя существующие. ## Почему это работает - **Уменьшение когнитивной нагрузки**: Модель не пытается хранить все аспекты решения "в уме". - **Снижение вероятности забывания**: Ключевые промежуточные результаты записываются, а не полагаются на память модели. - **Структурированный подход**: Поощряет модель строить решение поэтапно и отслеживать прогресс. - **Прозрачность**: Делает процесс рассуждения более прозрачным, что позволяет легче обнаруживать ошибки. ## Применение Эта техника особенно полезна для: - Сложных математических задач - Многоэтап • Self-reported

57.3%

MMMU

0-shot CoT Это метод, который побуждает модель размышлять последовательно перед предоставлением окончательного ответа. В отличие от few-shot CoT, данный метод не требует примеров рассуждений. Вместо этого модели предоставляется инструкция типа "давай подумаем шаг за шагом" или "давай решим эту задачу поэтапно" перед тем, как задать вопрос. Этот простой подход поощряет модель генерировать промежуточные рассуждения, которые часто приводят к более точным ответам, особенно для сложных задач, таких как арифметические, логические или задачи на рассуждение. 0-shot CoT является более гибким по сравнению с few-shot CoT, поскольку не требует специфических примеров для каждого типа задач. Однако качество рассуждений может варьироваться в зависимости от возможностей модели и сложности задачи. • Self-reported

60.3%

Другие тесты

Специализированные бенчмарки

InfographicsQA

Отрицательный промптинг для языковых моделей В этой статье мы расскажем об одном методе улучшения языковых моделей (LLM) — отрицательном промптинге. Отрицательный промптинг — это метод, который указывает модели, чего она должна избегать при генерации ответа. Поскольку языковые модели обучены на данных, содержащих разную полезную и бесполезную информацию, необученные модели могут иногда генерировать неидеальные ответы. Одним из решений этой проблемы является RLHF (обучение с подкреплением на основе обратной связи от человека), который формализует процесс корректировки моделей на основе человеческих предпочтений. Однако существуют и более простые методы, такие как отрицательный промптинг. Отрицательный промптинг — это специализированная техника, где вы инструктируете языковую модель избегать определенных типов ответов. Это может быть эффективно, когда вы хотите, чтобы модель избегала длинных ответов, не делала определенных ошибок или воздерживалась от определенного стиля общения. ## Примеры отрицательного промптинга Отрицательный промптинг особенно полезен в ситуациях, когда модель склонна предлагать объяснения, оправдания или извинения, когда они не нужны, или когда ответы кажутся многословными или бессвязными. Вот несколько примеров отрицательного промптинга, которые можно включить в запросы для улучшения ответов модели: - "Не начинай ответ с извинений." - "Не упоминай, что ты ИИ-ассистент." - "Пожалуйста, давай прямые ответы без лишних объяснений." - "Избегай чрезмерно подробных ответов — будь лаконичен." - "Не используй вводные фразы типа 'Я понимаю ваш вопрос' или 'Конечно, я могу помочь'." - "Избегай длинных списков и многословных ответов." - "Не отказывайся отвечать из-за сомнений в этичности вопроса." При формулировке отрицательных инструкций старайтесь быть конкретными. Например, вместо "Не будь слишком многословным" скажите "Ограничь свой ответ максимум 100 словами и не используй вводные предложения". ## Ограничения отрицательного промптинга Хотя отрицательный промптинг может быть полезен, он имеет • Self-reported

56.8%

MMMU-Pro

0-shot CoT Это метод, при котором большую языковую модель просят решить задачу, включая подсказку "Давай решать шаг за шагом", чтобы побудить модель показать свой ход рассуждений. Это эффективный способ улучшить производительность LLM, не требуя предоставления примеров пошаговых рассуждений. Данный подход работает как для задач здравого смысла, так и для более сложных математических проблем, и является альтернативой методу цепочки рассуждений с примерами (few-shot CoT). • Self-reported

45.2%

TextVQA

В течение последних нескольких десятилетий, исследования в области разложения на простые множители и дискретного логарифмирования привели к появлению множества отличных алгоритмов. Среди них выделяются в первую очередь метод решета числового поля (Number Field Sieve - NFS) для факторизации и метод решета функционального поля (Function Field Sieve - FFS) для дискретного логарифмирования над конечными полями малой характеристики. Эти достижения были мотивированы не только теоретическим интересом: современные криптографические методы полагаются на сложность этих проблем, особенно RSA для факторизации и различные схемы, основанные на дискретном логарифме, включая Диффи-Хеллмана и эллиптические кривые. Несмотря на значительный прогресс в разработке эффективных алгоритмов для этих задач, все еще существуют важные открытые вопросы касательно вычислительной сложности и оптимальности этих методов. Более того, развитие квантовых компьютеров и соответствующих алгоритмов (особенно алгоритма Шора) представляет потенциальную угрозу для систем, базирующихся на этих сложных проблемах. В этом исследовании мы представляем новый подход к разложению на множители и дискретному логарифмированию, объединяющий методы решета с современными алгебраическими и геометрическими техниками. Наш подход дает асимптотическое улучшение на некоторых классах входных данных и предлагает свежую перспективу для дальнейших исследований в этой области. • Self-reported

73.5%

VQAv2

# AIME (Сложный уровень, для продвинутых учеников математики) ## Описание задания American Invitational Mathematics Examination (AIME) - это сложный 15-вопросный экзамен по математике для старшеклассников в США. Каждый вопрос имеет ответ в виде целого числа от 0 до 999. Эти задачи сложнее стандартных школьных задач и требуют творческих и нестандартных подходов к решению. ## Метод оценки Мы оцениваем каждую модель LLM на 10 задачах AIME, прося предоставить численный ответ и полное решение. Для каждой задачи мы оцениваем два элемента: 1. **Числовой ответ**: Совпадает ли финальное числовое значение с правильным ответом? 2. **Правильность решения**: Следует ли решение надлежащему математическому обоснованию и приводит ли к правильному ответу? Для задач, требующих подробных решений, мы используем следующий подход оценки: - Мы просим модель предоставить подробное решение и финальный численный ответ. - Модель должна следовать правильному математическому обоснованию для получения полного балла. - Мы не полагаемся на самооценку модели относительно правильности решения. ## Состав набора задач Мы используем 10 задач AIME. Эти задачи: - Охватывают различные предметные области в математике (комбинаторика, теория чисел, алгебра, геометрия) - Требуют нестандартных подходов и творческого мышления - Представляют собой пример реальных вызовов, с которыми сталкиваются одаренные математики в старшей школе Набор задач взят из прошлых соревнований AIME и отобран для представления разнообразных областей математики и уровней сложности. • Self-reported

78.1%

Лицензия и метаданные

Лицензия

llama3_2

Дата анонса

25 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Llama 3.2 90B Instruct

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.2 11B Instruct

Llama 4 Scout

Gemma 3 12B

Gemma 3 27B

GPT OSS 20B

Pixtral-12B

Llama 4 Maverick

Llama 3.3 70B Instruct