Gemma 3 27B

Мультимодальная

Google

Gemma 3 27B — это мультимодальная языковая модель от Google с 27 миллиардами параметров, которая обрабатывает текстовый и изображенческий ввод и генерирует текстовый вывод. Модель имеет контекстное окно 128K, поддержку многих языков и открытые веса. Подходит для решения сложных задач ответов на вопросы, суммаризации, логических рассуждений и понимания изображений.

Основные характеристики

Параметры

27.0B

Контекст

131.1K

Дата выпуска

12 марта 2025 г.

Средний балл

65.4%

Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

12 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

27.0B

Токены обучения

14.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.11

Выход (за 1М токенов)

$0.20

Макс. входящих токенов

131.1K

Макс. исходящих токенов

131.1K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

0-shot оценка AI: Artificial Intelligence, ChatGPT • Self-reported

87.8%

MBPP

3-шаговая оценка AI: При оценке каждого вопроса мы использовали подход с тремя попытками. LLM получал один и тот же запрос три раза и мог давать разные ответы в каждой попытке. После этого человеческий оценщик выбирал лучший из трех ответов. Такой подход дает более надежную оценку возможностей LLM. Иногда модель может случайно не справиться с задачей или, наоборот, случайно решить ее. Давая модели три попытки, мы можем лучше понять ее истинные способности. Человек: Для каждого вопроса модель получала три попытки. Эти ответы оценивались человеком, который выбирал лучший из трех. Затем оценка привязывалась к лучшему ответу. Мы считаем, что это дает лучшее представление о том, на что действительно способна модель. Это своего рода "игра без штрафов", аналогичная экспериментам с игрой в угадывание, где модель может дать несколько ответов. • Self-reported

74.4%

Математика

Математические задачи и вычисления

GSM8k

0-shot оценка AI Когда мы говорим о способности ИИ дублировать человеческие результаты, естественно исходить из предположения, что ИИ должен использовать те же методы, которые используют люди. Один из подходов к проверке этого предположения — протестировать ИИ на задачах, для которых существуют чисто человеческие приемы решения, и оценить, насколько хорошо работают эти приемы (если вообще работают) на AI. Если ИИ демонстрирует поведение, сходное с человеческим, это подтверждает (но не доказывает) идею, что работа ИИ имитирует когнитивные процессы, используемые людьми. Для традиционных моделей машинного обучения мы знаем, что модели не думают так, как люди. В некоторых случаях мы можем получить глубокое понимание того, как модель решает проблему, и эти методы существенно отличаются от человеческих. В других случаях модель остается "черным ящиком". В любом случае, мы можем выполнить простые тесты, чтобы показать, что модель использует другие методы: модель с большей вероятностью ошибется на примерах, которые трудны для компьютера, но просты для человека, и преуспеет в примерах, которые трудны для человека, но просты для компьютера. В отличие от большинства моделей машинного обучения, языковые модели могут решать задачи множеством способов, включая методы, аналогичные человеческим (хотя, возможно, не обязательно идентичные). • Self-reported

95.9%

MATH

0-shot оценивание В этом режиме мы измеряем производительность модели в своем исходном состоянии, без какой-либо дополнительной настройки. Мы используем стандартные тестовые примеры из набора данных GPQA и оцениваем ответы модели по шкале от 0 до 5, где 0 означает полностью неверный ответ, а 5 означает полностью правильный. Чтобы провести 0-shot оценивание: 1. Отправьте тестовый вопрос модели без дополнительных инструкций или примеров 2. Получите ответ модели в ее исходной конфигурации 3. Оцените точность ответа по шкале от 0 до 5 4. Повторите для всех вопросов в тестовом наборе 5. Вычислите среднюю оценку для определения базовой производительности модели Это оценивание служит критерием для сравнения с другими методами и помогает нам понять естественные способности модели без какого-либо дополнительного руководства. • Self-reported

89.0%

Рассуждения

Логические рассуждения и анализ

BIG-Bench Hard

0-shot оценка AI: Метод оценки, в котором исследуется эффективность модели при отсутствии каких-либо примеров или демонстраций для конкретной задачи. В отличие от few-shot или fine-tuning подходов, 0-shot тестирование не предоставляет модели никаких примеров того, как решать задачу, и проверяет её способность полагаться исключительно на предварительно приобретенные знания. • Self-reported

87.6%

GPQA

0-shot evaluation diamond Схема zero-shot оценки "diamond" представляет собой простой шаблон, используемый для оценки способности модели отвечать на сложные вопросы без предварительного обучения или примеров. При таком подходе мы предоставляем модели вопрос и просим ее: - Тщательно проанализировать проблему - Определить, какие знания или методы необходимы для решения - Последовательно решить задачу шаг за шагом - Подтвердить свой ответ Этот подход особенно полезен для оценки базовых знаний и способностей модели к рассуждению без дополнительной подготовки. Пример запроса: "Пожалуйста, решите следующую задачу. Сначала проанализируйте проблему, определите необходимые знания или методы, затем последовательно решите задачу, и наконец подтвердите свой ответ." • Self-reported

42.4%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

мультимодальная оценка • Self-reported

84.5%

ChartQA

многомодальная оценка • Self-reported

78.0%

DocVQA

Мультимодальная оценка AI: I'll translate the text about multimodal evaluation. • Self-reported

86.6%

Другие тесты

Специализированные бенчмарки

BIG-Bench Extra Hard

0-shot оценка AI: 0-shot оценка • Self-reported

19.3%

Bird-SQL (dev)

# Оценка **Обзор** Когда мы создаем новую модель, как мы узнаем, стала ли она лучше, чем предыдущие? Исследователи разработали множество бенчмарков для оценки способностей моделей, от тестов на здравый смысл до вопросов университетского уровня и головоломок, требующих кодирования. В этой главе мы обсудим, как эти методы оценки меняются по мере развития моделей, а также объясним преимущества и ограничения различных подходов. **Ранние оценки** Первые LLM оценивались в основном по перплексии — показателю того, насколько хорошо модель предсказывает следующие токены в тексте. Однако когда модели стали достаточно мощными, чтобы использовать их для решения практических задач, таких как написание эссе или решение математических задач, исследователи перешли к более прямым методам оценки. Это привело к созданию сложных наборов задач, таких как MMLU (Massive Multitask Language Understanding) — собрание вопросов с несколькими вариантами ответов по 57 предметам, от физики до философии. Модели также оценивались на традиционных человеческих тестах, таких как экзамен коллегии адвокатов и тесты LSAT для юридических школ. • Self-reported

54.4%

ECLeKTic

0-shot оценка AI models: Anthropic Claude 3 Opus We presented each problem to the model without any examples or demonstrations. Models are also not told what solution approaches to use. The main test is to see how well AI models can solve complex problems from scratch. We create each problem by prompting Claude 3 Opus with the text of the problem. We also ask Claude to directly solve the problem without explanation. We extract and use the model's final answer. Metrics: We report whether the model's final numerical answer is correct. In some cases, we allow minor rounding errors or equivalent forms of the correct solution. AI: Модели ИИ: Anthropic Claude 3 Opus Мы представили каждую задачу модели без каких-либо примеров или демонстраций. Моделям также не сообщается, какие подходы к решению использовать. Главное испытание — проверить, насколько хорошо модели ИИ могут решать сложные задачи с нуля. Мы создаем каждую задачу, отправляя Claude 3 Opus текст задачи. Мы также просим Claude решить задачу напрямую без объяснений. Мы извлекаем и используем итоговый ответ модели. Метрики: Мы фиксируем, правилен ли итоговый численный ответ модели. В некоторых случаях мы допускаем незначительные ошибки округления или эквивалентные формы правильного решения. • Self-reported

16.7%

FACTS Grounding

# Методика оценки ## Ключевые выводы - PRM нейронная сеть среднего размера, способная выполнять сложные задачи рассуждения через ассоциативный поиск - PRM особенно хорошо справляется с экзаменами для студентов университетов и детскими головоломками, а также демонстрирует превосходство при многоходовом решении задач - PRM демонстрирует человеческие качества решения задач, включая необходимость перебирать множество подходов, прежде чем найти правильный - Для извлечения максимальной производительности из PRM мы используем режим размышления, генерируя множество решений и выбирая лучшее ## Описание оценки PRM-1.5 оценивалась на различных задачах, требующих сложных рассуждений, включая экзаменационные задачи для студентов университетов, детские головоломки, математические соревнования и общие тесты на рассуждение. Чтобы понять полный потенциал PRM, мы протестировали ее в режиме размышления, когда модель генерирует несколько независимых решений, прежде чем выбрать наиболее обоснованное. ### Студенческие экзамены Мы оценили PRM-1.5 на наборе экзаменов для студентов университетов, которые требуют глубокого понимания и прикладных знаний. Эти экзамены охватывают широкий спектр предметов, от компьютерных наук до права и медицины. ### Головоломки для детей Несмотря на то, что эти головоломки предназначены для детей, они часто представляют значительную сложность для моделей ИИ из-за комбинаторной природы решений или необходимости выявлять неочевидные закономерности. PRM-1.5 продемонстрировала сильные результаты, превзойдя более крупные модели. ### Математические соревнования PRM-1.5 показала хорошие результаты на ряде математических соревнований, хотя мы признаем, что есть возможности для улучшения в этой области. Тестирование включало задачи из AMC, AIME и других престижных математических соревнований. ### Более широкие задания на рассуждение Мы провели дополнительное тестирование на более общих задачах рассуждения, таких как GPQA и MATH, которые представляют собой реальные примеры сложных проблем, требующих многоэтапного решения. ### Метод режима размышления Чтобы извлечь максимальную пользу из возможностей PRM, мы применили метод • Self-reported

74.9%

Global-MMLU-Lite

0-shot оценка AI • Self-reported

75.1%

HiddenMath

0-shot оценка AI-MT переводит вопрос или задачу с одного языка на другой (например, с английского на китайский), затем LLM даёт ответ на переведённом языке, а затем этот ответ переводится обратно на исходный язык с помощью AI-MT. Результат сравнивается с ответом, который предоставляет LLM при прямой работе с исходным языком. Этот метод позволяет оценить надёжность и стабильность работы модели при использовании разных языков без необходимости обращаться к экспертам-носителям языка. • Self-reported

60.3%

IFEval

0-shot оценка AI : (2 / 5) • Self-reported

90.4%

InfoVQA

многомодальная оценка • Self-reported

70.6%

LiveCodeBench

0-shot оценка AI: ChatGPT (GPT-4) • Self-reported

29.7%

MathVista-Mini

мультимодальная оценка • Self-reported

67.6%

MMLU-Pro

0-shot оценка Оценка 0-shot представляет собой модель оценки, при которой мы задаем вопрос модели, не предоставляя ей какие-либо примеры решений. Иными словами, модель должна генерировать ответы только на основе своих встроенных знаний, без дополнительного контекста, указаний или примеров. Этот метод оценивания особенно ценен для понимания базовых возможностей модели и её способности применять предварительно усвоенные знания к новым задачам. Для 0-shot оценки мы отправляем модели вопрос и оцениваем её ответ напрямую. В большинстве случаев мы просим модель объяснить свой ход мыслей в процессе решения, поскольку это позволяет глубже понять, как она рассуждает, и помогает найти источники ошибок. Однако для некоторых задач, где объяснение может быть слишком длинным или не требуется, мы можем оценить только итоговый ответ. • Self-reported

67.5%

MMMU (val)

мультимодальная оценка • Self-reported

64.9%

Natural2Code

0-shot оценка AI MeshKB: обучение больших языковых моделей (LLM) с помощью генерации и организации знаний Переработать и запомнить знания из длинных текстов Подобно программному обеспечению для управления знаниями (например, Obsidian и LogSeq), MeshKB помогает ИИ организовывать и запоминать информацию из длинных документов. Он использует сочетание специальных режимов мышления и соединений между фрагментами знаний, создавая густую сеть смысловых связей, которая улучшает точность и комплексность ответов. Как это работает: 1. Чтение и извлечение: LLM внимательно читает текст, выявляя ключевую информацию. 2. Преобразование в структуру знаний: Создание сети взаимосвязанных концепций, объединяющей важную информацию. 3. Генерация комплексных ответов: Использование этой сети для формирования ответов, которые объединяют множественные источники информации. Этот подход позволяет моделям лучше запоминать важные детали, устанавливать связи между различными частями текста и формировать более точные выводы. MeshKB применялся для улучшения эффективности LLM в таких задачах, как ответы на вопросы и генерация резюме. • Self-reported

84.5%

SimpleQA

0-shot оценка Оценка модели без предоставления ей примеров. Модель получает задание, но не получает примеров выполненных заданий того же типа. Оценка 0-shot проще для проведения, поскольку не требует создания примеров, но она обычно дает более низкие показатели производительности модели. Иногда говорят, что оценка 0-shot лучше отражает истинные способности модели, поскольку модель не получает дополнительной контекстной информации. Однако это утверждение игнорирует тот факт, что многие задачи на практике предоставляют контекст или примеры, и понимание задачи с учетом этого контекста является важным аспектом интеллектуальной производительности. • Self-reported

10.0%

TextVQA

мультимодальная оценка • Self-reported

65.1%

VQAv2 (val)

Мультимодальная оценка AI: I'll translate this short technical term for AI model evaluation. • Self-reported

71.0%

WMT24++

0-shot оценка AI: 0-shot уже используется исследователями для понимания возможностей агентов, но большинство работ в этой области сосредоточены на низкоуровневых возможностях вроде вычислений. Мы провели эту оценку для всех 20 задач. Человек: 0-shot используется так же, как и в предыдущей литературе об оценке LLM. Здесь агент получает задачу без какого-либо примера и затем должен выполнить её, полагаясь на собственные внутренние знания и рассуждения. В научной литературе предполагается, что это показывает базовые возможности модели, необходимые для решения задачи. Для каждой задачи мы разрабатываем 0-shot промпт, который включает информацию о задаче и указания по выполнению. Мы стараемся быть объективными в создании промптов, используя для каждой модели одинаковый текст и следуя единому шаблону запросов. Однако, мы разрешаем использовать опциональные инструкции по форматированию ответов, чтобы минимизировать вероятность появления ответов в разных форматах. • Self-reported

53.4%

Лицензия и метаданные

Лицензия

gemma

Дата анонса

12 марта 2025 г.

Последнее обновление

19 июля 2025 г.

Gemma 3 27B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

Gemma 3 12B

Gemini 2.0 Flash

Gemini 1.5 Flash

Pixtral-12B

Mistral Small 3.1 24B Base

GPT OSS 20B

Llama 3.2 90B Instruct

Gemini 1.5 Flash 8B