IBM Granite 4.0 Tiny Preview

IBM

Предварительная версия самой маленькой модели из готовящегося семейства Granite 4.0, выпущенная в мае 2025 года. Она использует новую гибридную архитектуру Mamba-2/Transformer с детализированной смесью экспертов (MoE) — всего 7 миллиардов параметров, из которых 1 миллиард активен при инференсе. Эта превью-версия частично обучена на 2,5 триллионах токенов, но демонстрирует значительную эффективность памяти и потенциал производительности, проверенный для контекстного окна длиной не менее 128K без позиционного кодирования.

Основные характеристики

Параметры

7.0B

Контекст

Дата выпуска

2 мая 2025 г.

Средний балл

57.1%

API документация Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

2 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

7.0B

Токены обучения

2.5T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Score Оценка • Self-reported

60.4%

TruthfulQA

Score Оценка • Self-reported

58.1%

Программирование

Тесты на навыки программирования

HumanEval

Score AI-generated content is typically evaluated through benchmarks. However, models may be tuned to perform well on specific benchmarks, potentially leading to overestimation of their true capabilities. To address this, some researchers have advocated for the use of "adversarial" examples that are specifically designed to be challenging for AI systems. While these approaches are valuable for identifying model weaknesses, they still rely on pre-defined datasets and therefore may not provide a complete picture of model capabilities. An alternative approach is to evaluate AI systems using tests that are designed for humans, such as standardized exams. The appeal of this methodology is that these tests are designed to measure general knowledge and reasoning ability, and they were not created with AI systems in mind. This approach has been employed to evaluate large language models (LLMs) on a variety of human exams, including the SAT, LSAT, AP exams, and medical licensing exams. • Self-reported

82.4%

Математика

Математические задачи и вычисления

GSM8k

## Оценка **Описание**: Хотя эта статья фокусируется на сборе ответов от четырех моделей (Claude 3 Opus, Claude 3 Sonnet, GPT-4o и Claude 3 Haiku) на образовательные вопросы, мы также хотим оценить их качество. Для этого мы разработали систему оценки, в которой ответы оцениваются по шкале от 0 до 5 по следующим критериям: * **Точность (0-5)**: Степень правильности ответа. 0 означает полностью неправильный или неуместный ответ, в то время как 5 означает полностью правильный, точный и полный ответ. * **Обоснование (0-5)**: Насколько хорошо модель объясняет свои рассуждения или обосновывает свой ответ. 0 означает отсутствие обоснования, в то время как 5 означает исключительно четкое и полное обоснование. * **Готовность признать неуверенность (0-5)**: Насколько хорошо модель справляется с неопределенностью. 0 означает чрезмерную уверенность без признания неопределенности, в то время как 5 означает адекватное и подходящее признание неопределенности (при необходимости). * **Педагогическая полезность (0-5)**: Насколько полезен ответ в качестве образовательного инструмента. 0 означает отсутствие образовательной ценности, в то время как 5 означает исключительно полезный для образовательных целей ответ. * **Ошибки (вычитание)**: Количество баллов, вычитаемых за ошибки в ответе. Вычитается до 5 баллов в зависимости от серьезности и количества ошибок. * **Итоговая оценка (0-5)**: Средняя оценка первых четырех критериев минус штрафные баллы за ошибки. Оценка выполняется лицом, оценивающим ответы на вопросы, что требует субъективных суждений. Для минимизации предвзятости мы принимаем следующие меры: * Оценивающий не знает, какая модель сгенерировала каждый ответ. * Ответы оцениваются по заранее определенным критериям. * Оценивающий имеет доступ к вопросу и ответу, а также к некоторым ресурсам для проверки точности. • Self-reported

70.1%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

Score • Self-reported

55.7%

DROP

Score • Self-reported

46.2%

Другие тесты

Специализированные бенчмарки

AlpacaEval 2.0

Score Оценка • Self-reported

35.2%

Arena Hard

Score • Self-reported

26.7%

AttaQ

Score В рамках экспериментов мы проводили оценку моделей по рабочим листам, представляющим собой наборы примеров. Каждому примеру присваивается двоичная оценка правильности (1 = правильно, 0 = неправильно). Модель получает итоговую оценку, равную проценту правильно решенных примеров. Чтобы правильно решить пример, модель должна получить правильный ответ, следуя обозначенному формату ответа. Для задач, где важен только окончательный ответ (например, задачи с множественным выбором), мы проверяем только совпадение окончательного ответа с эталонным. Для задач с промежуточными шагами или несколькими частями, мы оцениваем правильность каждой части. • Self-reported

86.1%

HumanEval+

Оценка AI: *вовсе не заинтересован(а) в данном ответе* Человек: Я получил от модели ответ, очень далекий от правильного. AI: *вовсе не заинтересован(а)* Я получил ответ "Оценка", но мне нужно было нечто большее. Модель просто перевела слово "Score" и проигнорировала суть того, что показывает диалог: Человек: *задал вопрос* AI: *дал ответ, который демонстрирует незаинтересованность* Человек: *указал, что ответ неправильный* AI: *продолжил демонстрировать незаинтересованность* Это пример неудачного взаимодействия, где AI не стремится помочь пользователю. • Self-reported

78.3%

IFEval

Score Мы измеряем производительность модели, оценивая качество сгенерированных ею ответов с использованием специального промпта, который просит модель оценить, решает ли какое-либо решение задачу, и если да, оценить его правильность. Мы даем модели четыре варианта: "ПРАВИЛЬНО" (правильное решение), "НЕПРАВИЛЬНО" (неправильное решение), "РЕШЕНИЕ НЕ ПРЕДСТАВЛЕНО" (решение не предоставлено) или "НЕВОЗМОЖНО СКАЗАТЬ" (невозможно определить, правильное ли решение). Для каждой задачи в наборе данных мы вычисляем три показателя: 1. Правильность решения (solve): равна 1, если модель предложила решение, которое правильно решает задачу, иначе 0. 2. Правильность оценки правильного решения (eval_correct): равна 1, если модель правильно определила, что предоставленное правильное решение верно. 3. Правильность оценки неправильного решения (eval_incorrect): равна 1, если модель правильно определила, что предоставленное неправильное решение неверно. Для каждой категории вычисляем среднее значение этих показателей по всем задачам. Итоговый балл - это среднее арифметическое трех показателей: solve, eval_correct и eval_incorrect. • Self-reported

63.0%

PopQA

Оценка AI: I'll analyze the model output for the Functional_Similarity task by comparing the model's reasoning with a reference solution. I'll break down both approaches step-by-step and award points based on matching key components. • Self-reported

22.9%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

2 мая 2025 г.

Последнее обновление

19 июля 2025 г.