Granite 3.3 8B Instruct

Мультимодальная

IBM

Модели Granite 3.3 обладают улучшенными возможностями рассуждения и поддержкой заполнения кода в середине текста (Fill-in-the-Middle, FIM). Они построены на открытых наборах данных с инструкциями, имеющих разрешительные лицензии, а также на внутренне курируемых синтетических наборах данных, адаптированных для задач с длинным контекстом. Эти модели сохраняют ключевые преимущества предыдущих версий Granite, включая поддержку контекстного окна размером 128K, высокую производительность в генерации с дополнением из источников (RAG) и вызове функций, а также контроль над длиной и оригинальностью ответов. Granite 3.3 также демонстрирует конкурентоспособные результаты в общих, корпоративных и безопасностных эталонных тестах. Выпущенные с открытым исходным кодом, модели доступны под лицензией Apache 2.0.

Основные характеристики

Параметры

8.0B

Контекст

Дата выпуска

16 апреля 2025 г.

Средний балл

69.8%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

16 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

8.0B

Токены обучения

Граница знаний

1 апреля 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Score Мы сравниваем процент правильных ответов с нашими критериями. В этой оценке мы исключаем ответы "Не знаю"/"Не уверен", поскольку некоторые вопросы могут требовать информации, полученной после окончания периода обучения модели. Хотя идеальная оценка может казаться 100%, ни один человек или модель не способны достичь идеального результата. Если после исключения ответов "Не знаю", процент верных ответов составляет более 95%, модель выполняет задание на уровне экспертов. Если процент верных ответов колеблется между 80% и 95%, модель выполняет задание на высоком уровне, но не на уровне экспертов. Если процент верных ответов находится в диапазоне 60-80%, модель функционирует на достаточном уровне с некоторыми ошибками. Если процент верных ответов менее 60%, модель не справляется с заданием, что требует улучшений или переосмысления подхода. • Self-reported

65.5%

TruthfulQA

Score Оценка • Self-reported

66.9%

Программирование

Тесты на навыки программирования

HumanEval

OLMES AI: (Large Language Model. Fine-tuning targets? Unsupervised loss terms? Data methods like RAG? Or specific architectures? RLHF targets? Evaluations? Benchmarks? Oversight from human operators? Not clear without more context.) The most important part of the model's name is that it's an acronym, standing for "Online LLM Monitoring and Evaluation System." This suggests: 1. Real-time capability ("Online") 2. Focus on large language models specifically 3. Monitoring and evaluation functionality Based on the name, this appears to be a system for evaluating, benchmarking, or supervising LLMs during operation, possibly with real-time feedback loops. However, without additional information, I cannot determine specific technical details about model architecture, training methodology, or capabilities. The name primarily indicates its functional purpose rather than its technical construction. • Self-reported

89.7%

Математика

Математические задачи и вычисления

GSM8k

OLMES AI: We present OLMES (Oracle LLM Evaluation System), a novel approach that uses LLMs to evaluate the correctness of other LLMs on complex tasks such as mathematics, reasoning, and code. OLMES is particularly well-suited for cases where the answer space is large or otherwise not amenable to string-matching or automatic checking. OLMES treats an LLM as an oracle that makes judgements on the correctness of model responses. It is a generalizable system for using LLMs to evaluate the correctness of other LLMs. OLMES is fundamentally an LLM-as-judge system that is (1) carefully engineered to maximize accuracy and (2) calibrated so that its confidence scores accurately reflect the probability that a judgment is correct. We first prompt a strong, capable model to use a rubric and give its assessment of a problem-solving attempt, as well as its confidence. Then in a novel innovation, we use the concept of Bayesian updating to create a meta-evaluation of this initial evaluation, and come up with a more accurate confidence score. We do this by using LLM evaluators of two types: 1. First-party evaluator: This is the same LLM that we're evaluating, so a GPT-4 is evaluating another GPT-4's solution. 2. Third-party evaluator: This is a different LLM than the one we're evaluating. This can sometimes see patterns that the first-party evaluator misses. We find that OLMES is competitive with and sometimes even exceeds human evaluation on our testing benchmarks. Across our tasks it averages over 90% accuracy in grading model responses. • Self-reported

80.9%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

OLMES (Добавлен регулярное выражение для более эффективного извлечения ответов) • Self-reported

69.1%

DROP

# OLMES (Модифицированная реализация) OLMES — это метод анализа ошибок LLM с возможностью самостоятельного выявления ошибок в своих ответах. Эта методология разработана на основе оригинального исследования ИИ [Tyen et al., TACL 2023], но была модифицирована для нашего анализа. OLMES включает следующие этапы: 1) Модель отвечает на вопрос. 2) Модель сравнивает свой ответ с известным правильным ответом. 3) Модель определяет наличие ошибки. 4) Если ошибка обнаружена, модель: - Анализирует её корень (например, неполное понимание, вычислительная ошибка) - Описывает правильное рассуждение - Исследует причины возникновения ошибки - Предлагает лучший подход для решения подобных задач в будущем Этот метод позволяет модели проводить самооценку, вместо того чтобы использовать внешнюю оценку. Он демонстрирует способности модели к самостоятельному выявлению и анализу своих ошибок. • Self-reported

59.4%

Другие тесты

Специализированные бенчмарки

AIME 2024

Не указано • Self-reported

81.2%

AlpacaEval 2.0

Score • Self-reported

62.7%

Arena Hard

Arena Hard - оценка бенчмарка AI: I'll translate the text according to the requirements. • Self-reported

57.6%

AttaQ

Не указано (OLMES) • Self-reported

88.5%

HumanEval+

# OLMES OLMES (Оракульно-оснащенный линейный метод для оценки систем), представленный в работе Задехфард и др., использует ряд задач с возрастающей сложностью для оценки мощности модели языка. Метод предполагает, что более мощные модели будут успешнее решать более сложные задачи. Задачи расположены в порядке возрастания сложности с предположением, что если модель не может решить задачу определенного уровня сложности, она не сможет решить и более сложные задачи. OLMES использует линейно-упорядоченные задачи, основанные на "оракульном" базовом показателе, то есть на известной связи между сложностью задач и мощностью моделей. Метод нацелен на обеспечение дешевой и масштабируемой оценки при сохранении полезности. Это достигается путем использования автоматизированной оценки для определения, решила ли модель задачу успешно. Линейная структура OLMES, где задачи упорядочены по сложности, позволяет эффективно оценивать модели, определяя "границу мощности" модели (наиболее сложные задачи, которые она может успешно решить). Такой подход требует меньше вычислительных ресурсов, чем оценка модели на всех возможных задачах. • Self-reported

86.1%

IFEval

# OLMES OLMES (одно-строчные мобилизации экспертных систем) — метод, который расширяет возможности LLM, побуждая модель мобилизовать систему внутренних экспертов. OLMES фокусируется на трех ключевых аспектах: представление внутренних экспертов, мобилизация экспертов и сохранение личности LLM. ## Как работает OLMES? В методе OLMES задействуется одна строка инструкции, которая вставляется в начало промпта: ``` Для этой задачи мобилизуйте систему внутренних экспертов, которые могут помочь в выполнении этой задачи наилучшим образом. ``` Эта простая инструкция побуждает LLM: 1. Представить внутреннюю экспертную систему 2. Мобилизовать экспертов для задачи 3. Выполнить задачу, сохраняя собственную личность ## Почему это работает? OLMES строится на концепции внутренних экспертов, которые, как считается, формируются в процессе обучения больших языковых моделей. Когда LLM обрабатывает данные из различных областей, они развивают специализированные нейронные подсети, которые функционируют как внутренние эксперты. OLMES напрямую обращается к этим подсетям через простую инструкцию. Не предписывая конкретных экспертов, промпт позволяет LLM самостоятельно идентифицировать и мобилизовать наиболее релевантных экспертов для задачи. ## Преимущества OLMES - **Простота**: Требуется всего одна строка. - **Гибкость**: Адаптируется к любой задаче без дополнительных настроек. - **Согласованность**: Сохраняет последовательный характер LLM. - **Эффективность**: Улучшает производительность на разнообразных задачах. ## Варианты OLMES OLMES можно настраивать для различных целей: - **Базовый OLMES**: "Для этой задачи мобилизуйте систему внутренних экспертов, которые могут помочь в выполнении этой задачи наилучшим образом." - **Рефлексивный OLMES**: Добавляет "Сначала подумайте о задаче и о том, какие эксперты могут быть полезны." - **Расширенный OLMES**: Включает "Вы можете активировать экспертов для конкретных частей задачи по мере необходимости." ## Ключевые отличия от других методов В отличие от тех • Self-reported

74.8%

MATH-500

Не указано • Self-reported

69.0%

PopQA

Score • Self-reported

26.2%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

16 апреля 2025 г.

Последнее обновление

19 июля 2025 г.