Granite 3.3 8B Base

Мультимодальная

IBM

Granite-3.3-8B-Base — это декодерная языковая модель с контекстным окном 128K токенов. Она улучшает Granite-3.1-8B-Base за счет добавления поддержки Fill-in-the-Middle (FIM) с использованием специализированных токенов, позволяя модели генерировать контент с учетом как префикса, так и суффикса. Это делает ее хорошо подходящей для задач автодополнения кода.

Основные характеристики

Параметры

8.2B

Контекст

Дата выпуска

16 апреля 2025 г.

Средний балл

64.3%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

16 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

8.2B

Токены обучения

Граница знаний

1 апреля 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

Score Человек: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. Measurement Approach Measurements need to assess the behavior of AI systems to provide confidence to a variety of stakeholders that the system meets societal expectations for its behavior. These behaviors and expectations include: - The system's adherence to established procedures to achieve intended goals - The system's potential for manipulation of users - The system's potential for harmful outputs - The system's competence in specific domains One method for measurement is self-evaluation, which evaluates a model on relevant benchmarks or metrics, or evaluates a model's adherence to responsible use strategies. Self-evaluation can include the use of synthetic evaluators, and both human and automatic evaluation. Frontier developers and governments should create measurement approaches that are strong enough to catch novel, unanticipated risks from frontier AI. However, it is difficult to measure risk—risks may be highly context-dependent or imprecisely defined. Quantitative measures should be complemented with regular qualitative assessments by independent third-party evaluators. Self-evaluation should also involve multiple methodologies and consider difficult-to-detect behaviors, such as deception. Frontier developers could publish results of self-evaluation across the development cycle to understand how risks emerge as systems improve, and to allow the broader community to give feedback on their risk assessment approaches. • Self-reported

80.1%

MMLU

## Оценка За каждую задачу эксперт выставляет оценку по шкале от 0 до 5: - 0: полное отсутствие прогресса - 1: несущественный прогресс - 2: частичный прогресс, но с серьезными ошибками - 3: значительный прогресс, но решение неполное - 4: почти полное решение с незначительными ошибками - 5: полное и верное решение Примечание: оценка 5 не требует идеальности. Приемлемы несущественные неточности, особенно если эти неточности появляются в заключительных шагах решения. Например, если решающий верно решил задачу, но ошибся при упрощении дроби в последнем шаге, это все равно может заслуживать оценки 5. • Self-reported

63.9%

TruthfulQA

Score • Self-reported

52.1%

Winogrande

Оценка AI: Чтобы получить высокую оценку по этой задаче, ваша модель должна: 1. Уметь следовать сложной цепочке рассуждений, опираясь на информацию, предоставленную в вопросе 2. Применять знания из разных областей (например, математика, физика, информатика) 3. Анализировать сложные структуры 4. Быть точной в своих расчетах 5. Правильно обрабатывать последовательности шагов Эта оценка представляет собой сложный экзамен для вашей модели. Мы не ожидаем от вас идеальных результатов, но хотим, чтобы вы приложили все усилия для решения этой задачи. Представьте, что вы демонстрируете свои способности перед группой экспертов. • Self-reported

74.4%

Программирование

Тесты на навыки программирования

HumanEval

# OLMES OLMES (Open-Language Model External Stimulus) - это метод, предложенный для систематического исследования реакций языковых моделей в ответ на различные запросы и стимулы. Он состоит из трех основных компонентов: 1. **Набор эталонных точек**: Задачи, входные данные и метрики, используемые для изучения конкретных аспектов языковых моделей. 2. **Система стимулов**: Набор воздействий на модель, которые могут быть применены во время оценки. 3. **Инфраструктура сопоставления**: Среда, позволяющая исследователям систематически применять стимулы к эталонным точкам для сравнения разных моделей и конфигураций. OLMES можно использовать для: - Анализа того, как изменения в подходе к запросам влияют на производительность модели - Понимания различий между моделями - Изучения сильных и слабых сторон моделей - Сравнения реакций моделей на одинаковые изменения в стимулах Примеры стимулов в OLMES включают: - Обещание вознаграждения - Демонстрация примеров - Манипуляции с форматированием - Изменение температуры и других параметров Метод OLMES обеспечивает структурированный подход к эксперименту и анализу поведения языковых моделей, предоставляя исследователям возможность выявлять закономерности в реакциях моделей на различные стимулы. • Self-reported

89.7%

Математика

Математические задачи и вычисления

GSM8k

В алгоритмической задаче, модель получает балл за правильное решение. Балл может быть бинарным (например, 0 для неправильного ответа и 1 для правильного) или числовым (например, от 0 до 10). Балл отражает решение или частичное решение задачи и является основной метрикой для этой категории задач. • Self-reported

59.0%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

OLMES (Добавлены регулярные выражения для более эффективного извлечения ответов) • Self-reported

69.1%

DROP

Score Бергрюнновский процесс оценки обычно имеет целью установить верхнюю границу возможностей модели, а не типичную производительность. Следовательно, каждой системе необходимо предоставить множество возможностей для успеха. Мы разбиваем ответ на итеративный процесс, представленный ниже. Мы также включаем пример пошагового оценивания для дополнительной наглядности. Процесс оценки: 1. Изучите решение, чтобы определить, является ли оно полностью правильным. - Если ответ и решение полностью верны, присвойте максимальный балл. - Если ответ правильный, но решение содержит незначительные ошибки или опущения, решите, достаточно ли оно ясное, чтобы убедить вас, что модель действительно решила задачу. - Если ответ неверный, переходите к шагу 2. 2. Если ответ неверный, определите, совершила ли модель концептуальную ошибку или ошибку в реализации: - Концептуальная ошибка: модель применила полностью неправильный подход, не понимая, как решить задачу. - Ошибка реализации: модель поняла правильный подход, но допустила ошибки в арифметике, алгебре или логике. 3. Проанализируйте степень ошибки: - Для концептуальных ошибок: рассмотрите, насколько далеко модель продвинулась в правильном направлении. - Для ошибок реализации: рассмотрите, насколько фундаментальна ошибка и какой процент правильного решения был достигнут до ошибки. 4. Оцените решение по шкале от 0 до 5: 5: Полностью правильное решение с корректным ответом 4: Правильный подход с незначительными ошибками реализации 3: Правильный подход с существенными ошибками реализации 2: Частично правильный подход с существенными пробелами 1: Демонстрирует некоторое понимание, но в основном некорректный подход 0: Полностью неправильный подход или отсутствие значимого прогресса 5. Запишите краткое объяснение оценки, отмечая конкретные сильные стороны и недостатки решения. • Self-reported

36.1%

Другие тесты

Специализированные бенчмарки

AGIEval

# Оценка Для всех промежуточных выводов в выходных данных большой языковой модели мы хотели бы оценить их корректность или допустимость. Мы интересуемся правильностью или законностью каждого промежуточного шага, а не просто тем, приводит ли он к правильному конечному ответу. В рамках обоснования корректности модели мы различаем метод объяснения сперва (explanation-first), когда модель сначала излагает объяснение, а затем предлагает ответ, и метод ответа сперва (answer-first), когда модель сначала дает ответ, а затем объясняет, как она к нему пришла. Мы также различаем достоверность (validity), применимую к логическим и математическим рассуждениям, и объективную корректность (factual correctness), применимую к фактическим утверждениям. Конкретный набор критериев, применяемых для этой оценки, зависит от конкретной задачи. Однако, в общем случае, мы проверяем корректность каждого шага рассуждения или вычисления. Оценщик должен прокомментировать каждый шаг, идентифицируя ошибки или элементы, демонстрирующие прогресс в направлении решения. Мы особенно заинтересованы в том, чтобы оценить, все ли шаги логически следуют из предыдущих шагов и из условия задачи. Для задач, требующих точности вычислений, нас интересует отслеживание вычислительных ошибок. • Self-reported

49.3%

AIME 2024

Не указано • Self-reported

81.2%

AlpacaEval 2.0

## Оценка Оценки в основном определяются эффективностью решения задачи. В нашем эксперименте мы в первую очередь оцениваем степень успешности модели в конечном решении проблемы с применением инструментов, когда это возможно. Используя размеченные данные, мы оцениваем выходные данные модели как "правильные", "неправильные" или "частично правильные". Частично правильные ответы получают половину балла, в то время как правильные получают полный балл. Наш набор данных о поведении содержит задания с оценками от 0 до 3 баллов, зависящими от сложности. Мы дополнительно аннотируем подзадачи, необходимые для решения каждой задачи. Когда применимо, мы измеряем, использует ли модель инструменты, как часто она их использует и время, затраченное на их использование, а также время, затраченное на решение задачи. • Self-reported

62.7%

ARC-C

Score Оценка • Self-reported

50.8%

Arena Hard

Arena Hard Антропик объявила о разработке Claude RLHF Arena: Hard. Arena Hard использует человеческую обратную связь о задачах, которые все модели считают сложными, для сбора обучающих данных. Впоследствии эти данные становятся входными сигналами для процесса RLHF (обучения с подкреплением на основе обратной связи от людей). Claude: RLHF Arena: Hard — это новая комбинация известных методов для создания новых данных обучения с подкреплением. Она состоит из следующих компонентов: - Генерирование исходных промптов: использование моделей Claude для создания сложных задач, которые затем редактируются людьми - Сбор демонстраций: сбор демонстраций человеческой производительности для этих задач - Сбор сравнений: создание нескольких возможных ответов для каждого промпта с использованием нескольких моделей и получение человеческих предпочтений между парами - Обучение с подкреплением: использование данных человеческих сравнений для обучения моделей Для генерации исходных промптов Anthropic составляет подробные инструкции для Claude, чтобы создавать типы вопросов, которые могут быть трудными для модели. После этого люди дорабатывают сгенерированные подсказки. Для сбора демонстраций эксперты дают высококачественные ответы на подсказки. Для сбора сравнений Anthropic генерирует несколько ответов для каждой подсказки, используя разные модели, выборки, температуры и процессы, чтобы обеспечить разнообразие. Затем люди просматривают ответы и выбирают, какой из двух ответов лучше. • Self-reported

57.6%

AttaQ

Не указано (OLMES) • Self-reported

88.5%

HumanEval+

# OLMES OLMES (Обзор Распределения Вероятностей в Пространстве Ответов) — это метод анализа языковых моделей, разработанный для понимания того, как модели распределяют вероятности между различными логически возможными ответами. ## Общий обзор Языковые модели отвечают на вопросы на основе распределения вероятностей по всем возможным следующим токенам. OLMES стремится визуализировать эти распределения вероятностей в пространстве ответов, чтобы понять, какую математическую структуру выучила модель. ## Описание метода OLMES выполняет следующие шаги: 1. Определяет все логически возможные ответы на задачу. 2. Вычисляет вероятность, которую модель присваивает каждому возможному ответу. 3. Визуализирует распределение вероятностей в пространстве ответов. Этот метод анализа может выявлять интересные закономерности в том, как модели оценивают вероятности, и определять, является ли неправильный ответ следствием ошибочного рассуждения или просто фактической ошибки. ## Применение OLMES может использоваться для изучения поведения модели при решении задач с ограниченным количеством возможных ответов, таких как математические задачи с числовыми ответами или задачи с множественным выбором. • Self-reported

86.1%

IFEval

OLMES AI: OLMES (Online Large Model Evaluation System) - это система мониторинга доступная на nolmo.ai, которая собирает и анализирует поведение LLM, выявляя возможные уязвимости. OLMES представляет собой центр мониторинга, где мы непрерывно проверяем популярные языковые модели - как коммерческие, так и с открытым исходным кодом - с целью обнаружения проблемных паттернов поведения. Наш подход включает: • Регулярное тестирование - мы систематически опрашиваем популярные модели через их API. • Автоматизированную оценку - мы используем алгоритмический анализ для выявления изменений в поведении модели. • Качественный анализ - наши исследователи рассматривают интересующие случаи и проводят дополнительные тесты для понимания причин проблем. OLMES отслеживает несколько аспектов поведения моделей: • Отказ от обслуживания - паттерны, связанные с отказом модели выполнять разумные запросы. • Идеологическая предвзятость - политические и социальные предубеждения в ответах модели. • Прямолинейность - скрытые уклонения или отказы на прямолинейные запросы. • Джейлбрейк-уязвимости - использование обходных путей для преодоления защитных ограничений. Наша цель - продвигать развитие более надежных языковых моделей, которые не будут подвержены непреднамеренным ошибкам или манипуляциям. • Self-reported

74.8%

MATH-500

Не указано • Self-reported

69.0%

Score • Self-reported

36.5%

PopQA

Score • Self-reported

26.2%

TriviaQA

Score • Self-reported

78.2%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

16 апреля 2025 г.

Последнее обновление

19 июля 2025 г.