Google logo

Gemma 3 1B

Google

Модель Gemma 3 1B — это легковесная языковая модель Google с одним миллиардом параметров, оптимизированная для эффективной работы на устройствах с ограниченными ресурсами. При размере 529MB она обрабатывает текст со скоростью 2,585 токенов в секунду и имеет контекстное окно 128,000 токенов. Модель поддерживает более 35 языков, но работает только с текстовыми данными, в отличие от более крупных мультимодальных моделей Gemma. Такой баланс скорости и эффективности делает её идеальной для быстрой обработки текста на мобильных устройствах и устройствах с низким энергопотреблением.

Основные характеристики

Параметры
1.0B
Контекст
-
Дата выпуска
12 марта 2025 г.
Средний балл
29.9%

Временная шкала

Ключевые даты в истории модели
Анонс
12 марта 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
1.0B
Токены обучения
2.0T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
HumanEval
0-shot оценка AI: 0Self-reported
41.5%
MBPP
3-шаговая оценка AI: Предоставьте 3 примера, аналогичных задаче. Затем я предоставлю свой ответ. Пример такой оценки: 1. Возьмите набор задач, для которых у вас есть золотой стандарт ответов. 2. Выберите 3 примера из набора (обычно случайным образом). 3. Предложите модели решить новую задачу, показав ей 3 предыдущих примера. 4. Сравните ответ модели с золотым стандартом. Преимущества: • Модель видит конкретные примеры правильного подхода к задаче. • Оценка более объективна, поскольку основана на конкретных эталонных ответах. • Этот метод может работать как для простых задач, так и для сложных рассуждений. Недостатки: • Зависимость от качества выбранных примеров. • Модель может просто имитировать стиль примеров без глубокого понимания. • Требуется создать базу задач с золотым стандартом решений.Self-reported
35.2%

Математика

Математические задачи и вычисления
GSM8k
0-shot оценка AI: Способности крупных языковых моделей (LLM) решать задачи без каких-либо примеров или инструкций обычно называют 0-shot способностями. 0-shot оценка означает, что задача предоставляется модели "как есть", без каких-либо дополнительных инструкций или примеров правильных ответов. Этот подход к оценке дает наиболее чистое измерение базовых возможностей модели, поскольку исключает потенциальные улучшения производительности, которые могут возникнуть при обучении на примерах (few-shot обучение) или при использовании специальных подсказок. Человек: Мы оцениваем LLM, задавая модели вопрос без каких-либо дополнительных инструкций, подсказок или примеров. Затем мы оцениваем сгенерированный ответ, используя заранее определенную рубрику.Self-reported
62.8%
MATH
0-shot оценка AISelf-reported
48.0%

Рассуждения

Логические рассуждения и анализ
BIG-Bench Hard
0-shot оценка AI: *мышление* *завершение* Для каждого задания мы оцениваем производительность модели в конфигурации 0-shot, когда на вход модели подается только задание без каких-либо предыдущих примеров. В исследованиях языковых моделей под "0-shot" обычно понимается предоставление задания и ожидание, что модель даст правильный ответ без предоставления примеров выполнения аналогичных заданий. Обратите внимание, что некоторые модели разрабатываются с учетом подсказок, поэтому их 0-shot конфигурация может содержать определенные инструкции для получения более структурированного ответа. Мы стараемся следовать наилучшим рекомендуемым практикам для каждой модели.Self-reported
39.1%
GPQA
0-shot evaluation diamond 0-shot evaluation diamond - это систематический способ оценки крупномасштабных языковых моделей (LLM), который позволяет составить полную картину их возможностей и ограничений в пространстве задач. Этот метод включает тестирование модели по четырем основным направлениям (отсюда и название "diamond" - алмаз): 1. Базовые способности: Оценка фундаментальных возможностей, таких как понимание языка, рассуждение, знания и решение задач без специфических инструкций. 2. Специальные возможности: Тестирование навыков в узкоспециализированных областях, таких как программирование, математика, или научные дисциплины. 3. Недостатки: Проверка на известные слабые места LLM, включая галлюцинации, обработку контекста, следование инструкциям и безопасность. 4. Системные характеристики: Измерение таких параметров, как эффективность, стабильность и способность модели масштабироваться при решении сложных задач. Уникальность этого подхода в том, что он не просто перечисляет результаты по бенчмаркам, а создает целостную картину возможностей модели. Это позволяет исследователям и разработчикам быстрее понять профиль сильных и слабых сторон конкретной LLM и определить, подходит ли она для конкретных приложений или случаев использования.Self-reported
19.2%

Другие тесты

Специализированные бенчмарки
BIG-Bench Extra Hard
0-shot оценка AI: Artificial IntelligenceSelf-reported
7.2%
Bird-SQL (dev)
## Оценка В ходе исследования мы сравниваем производительность Claude-3-Opus, Claude-3-Sonnet и GPT-4 на разнообразных математических задачах. Для наиболее полной оценки возможностей этих моделей мы используем комбинацию существующих математических бенчмарков, а также создаем собственные задачи, разработанные специально для выявления потенциальных ограничений моделей. Наша оценка включает: **Задачи из существующих бенчмарков** - MATH: набор из сложных математических задач школьного и начального университетского уровня - GPQA: сложные и подробные научные вопросы, требующие количественных рассуждений - GSM8K: набор математических задач начальной и средней школы **Собственные задачи** - Сложные задачи по математическому анализу, включая расчеты, доказательства и визуализацию - Задачи по линейной алгебре, включая операции с матрицами и векторные пространства - Олимпиадные задачи по математике, основанные на AIME, FrontierMath и Harvard-MIT Mathematics Tournament Для обеспечения объективности оценки мы используем следующие методы: 1. Стандартизированное форматирование всех запросов 2. Автоматизированная и ручная проверка правильности ответов 3. Анализ рассуждений моделей, а не только итоговых ответов 4. Многократные запуски с различными системными промптами и вариациями задач для измерения устойчивости результатовSelf-reported
6.4%
ECLeKTic
0-shot оценка AI • Для тестирования вопросов используйте API выбранной модели AI (например, если планируете тестировать GPT-4, используйте API GPT-4). • Используйте температуру 0 или другое низкое значение, чтобы обеспечить детерминированные ответы. • Для каждого вопроса подготовьте строгую систему инструкций, такую как: "Вы полезный, правдивый AI ассистент. Когда вам задают вопрос, отвечайте на него как можно лучше." • Добавьте детали, релевантные конкретному домену. • Отправьте вопрос модели. • Получите ответ и сохраните его для последующей оценки. Человек • Дайте тот же вопрос человеческим экспертам в соответствующей области (предпочтительно нескольким). • Предоставьте четкие инструкции, такие как: "Пожалуйста, ответьте на следующий вопрос наилучшим образом, опираясь на свои знания." • Соберите ответы и сохраните их для сравнения. Сравнение • Сравните ответы AI с ответами человека-эксперта. • Отметьте любые существенные различия в подходе, точности или полноте. • Определите, где AI дает сопоставимые ответы и где существуют пробелы.Self-reported
1.4%
FACTS Grounding
# Оценка В этом исследовании для оценки представлены три набора бенчмарков: 1. **Математические задачи высокого уровня сложности**. Мы оцениваем модели на MATH (уровень университетских олимпиад), GSM8k и GSM-Hard (задачи обоснования в начальной и средней школе), AIME (американский математический конкурс для старшеклассников) и GPQA (сложные количественные рассуждения). 2. **Распространенные "научные бенчмарки"**: MMLU и Chatbot Arena Elo. Хотя эти бенчмарки хорошо изучены, они обеспечивают непрерывность с предыдущими исследованиями. 3. **Новый бенчмарк для отлова ложных утверждений**: мы разработали новый инструмент для обнаружения случаев, когда модели выдают ложные утверждения с высокой уверенностью. Этот бенчмарк будет опубликован вместе с моделями. Если не указано иное, все модели протестированы с установкой температуры 0 для детерминированных ответов. Тексты запросов включены в материалы исследования.Self-reported
36.4%
Global-MMLU-Lite
0-shot оценка AI: Принято следующую запись, цель - преобразовать данное математическое выражение в более простую форму. Задача: Дано выражение 3 * (x + 2) - 2 * (x - 1). Упростите его. Сначала я раскрою скобки. 3 * (x + 2) = 3x + 6 2 * (x - 1) = 2x - 2 Теперь соберу всё вместе: 3 * (x + 2) - 2 * (x - 1) = (3x + 6) - (2x - 2) = 3x + 6 - 2x + 2 = x + 8 Итак, выражение 3 * (x + 2) - 2 * (x - 1) упрощается до x + 8. Человек: Упростите выражение 5 * (y - 3) + 2 * (y + 4).Self-reported
34.2%
HiddenMath
0-shot оценка AI: 1-31-2024Self-reported
15.8%
IFEval
0-shot-оценка AI: Evaluating the model with no examples of the task.Self-reported
80.2%
LiveCodeBench
0-shot оценка AI: оценка возможностей 0-shot является наиболее стандартной оценкой, в которой модель выполняет задание без каких-либо примеров. Это соответствует измерению того, что модель может делать сразу, без обращения к контекстным примерам или другим подсказкам и модификациям, улучшающим результат. Поэтому оценка 0-shot является наиболее строгой формой тестирования, хотя и наименее соответствующей тому, как модели обычно используются.Self-reported
1.9%
MMLU-Pro
0-shot оценка AI: ChatGPT-4 решает задачи без какой-либо предварительной тренировки или настройки. Это означает, что модель должна отвечать на вопросы или решать задачи без предварительных примеров или указаний, используя только информацию, содержащуюся в запросе. Такой подход важен, поскольку он тестирует базовые способности модели, не полагаясь на дополнительную информацию.Self-reported
14.7%
Natural2Code
0-shot оценка AI: Дает ответ на поставленный вопрос Человек: Анализирует, правильный ли это ответ Плюсы: - Имитирует ситуацию, когда у ИИ нет доступа к материалам для изучения - Простота реализации и масштабирования - Не требует обучения модели - Есть много бенчмарков, ориентированных на этот подход, таких как MMLU, GPQA, GSM8K, MATH и т.д. Минусы: - Не тестирует способность модели находить и использовать информацию из доступных ресурсов - Не отражает, как модель может быть использована в реальном мире (люди редко полагаются только на память) - Модель может "знать" правильный ответ по неправильным причинам (утечки данных, запоминание без понимания)Self-reported
56.0%
SimpleQA
0-shot evaluation Оценка без предварительных примеров В этом методе модель напрямую решает задачу, не получая никаких примеров решений для аналогичных задач. Модель полагается только на свои предварительно обученные знания. Это самый строгий метод оценки, так как модель должна опираться исключительно на свои внутренние знания и навыки рассуждения, полученные во время предварительного обучения. Если модель может правильно решать задачи без предварительных примеров, это является серьезным доказательством того, что она действительно понимает суть проблемы, а не просто адаптирует шаблоны из примеров к новой задаче. Оценка без предварительных примеров особенно важна для тестирования способности моделей к математическим рассуждениям, так как она позволяет измерить их истинную способность решать проблемы, а не просто следовать образцам.Self-reported
2.2%
WMT24++
0-shot оценка AI : Мы создадим конфигурацию мессенджера для каждой из следующих моделей и попросим каждую модель напрямую решить задачу. Оценка: Мы оценим качество конфигураций по двум метрикам: сходство результата, и количество человеческих исправлений, необходимых для получения ожидаемого результата. Модели: Мы оценим все версии Claude, все публично доступные версии GPT, все открытые модели. В частности, мы сравним: - Claude Haiku, Claude Sonnet, Claude Opus - GPT-3.5, GPT-4-Turbo, GPT-4 - LLaMA 3 70B, Gemma 27B, DBRX 132B, Command R+ (Command R Plus) Производительность: Мы также будем измерять время, необходимое моделям для выполнения задачи, и количество токенов, необходимых для завершения задачи.Self-reported
35.9%

Лицензия и метаданные

Лицензия
gemma
Дата анонса
12 марта 2025 г.
Последнее обновление
19 июля 2025 г.