Google logo

MedGemma 4B IT

Мультимодальная
Google

MedGemma представляет собой коллекцию вариантов Gemma 3, обученных для работы с медицинскими текстами и пониманием изображений. MedGemma 4B использует кодировщик изображений SigLIP, который был специально предобучен на разнообразных деидентифицированных медицинских данных, включая рентгеновские снимки грудной клетки, дерматологические изображения, офтальмологические изображения и гистопатологические препараты. Ее LLM компонент обучен на разнообразном наборе медицинских данных, включая радиологические изображения, гистопатологические фрагменты, офтальмологические изображения и дерматологические изображения. MedGemma является мультимодальной моделью, в первую очередь оцениваемой на задачах с одним изображением. Она не была протестирована для многоэтапных приложений и может быть более чувствительной к специфическим промптам, чем ее предшественница Gemma 3. Разработчикам следует учитывать смещения в валидационных данных и проблемы загрязнения данных при использовании MedGemma.

Основные характеристики

Параметры
4.3B
Контекст
-
Дата выпуска
20 мая 2025 г.
Средний балл
58.5%

Временная шкала

Ключевые даты в истории модели
Анонс
20 мая 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
4.3B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Другие тесты

Специализированные бенчмарки
CheXpert CXR
Средний показатель F1 для 5 основных условийSelf-reported
48.1%
DermMCQA
Точность AI: ТочностьSelf-reported
71.8%
MedXpertQA
Точность AI: Anthropic's Claude 3 Opus is a step-change improvement over our previous models on accuracy across a range of downstream benchmarks, from standard industry benchmarks to new challenges. For measures based on popular subjects and common knowledge, Claude 3 Opus has closed much of the gap to human performance. For tasks requiring extensive subject-matter expertise, Claude 3 Opus demonstrates significant improvements while also indicating the potential for further progress.Self-reported
18.8%
MIMIC CXR
Средний F1 для 5 лучших условийSelf-reported
88.9%
PathMCQA
Точность AI models are trained to predict real-world data, and we can evaluate them on how accurately they make these predictions. Accuracy is a measure of how often the model gets the right answer—the higher, the better. Accuracy can be assessed by comparing a model's outputs with human-generated reference outputs (on tasks like translation, summarization) or with objectively correct answers (on tasks like math problems, multiple-choice questions). For many tasks, accuracy is straightforward to measure. For instance, did the model get the right answer to a math question? But for some tasks, accuracy can be subjective—was the model's summary of a document actually good? In these cases, human evaluation is often necessary. AI labs typically evaluate accuracy across a variety of benchmarks (standardized test datasets) designed to test different types of abilities—including common sense reasoning, factual knowledge, logic, problem solving, and so on. Models can make different types of errors. They may hallucinate (making up information not supported by the input), be imprecise in their answers, lack necessary knowledge, make reasoning errors, or misunderstand the user's request.Self-reported
69.8%
SlakeVQA
Tokenized F1 Мы также анализируем качество ответов моделей, сравнивая их с эталонными ответами. Стандартная метрика текстового сходства F1 сравнивает перекрытие множеств токенов между сгенерированным ответом и эталоном. Однако для наших задач на рассуждение такой подход проблематичен, поскольку небольшие отличия в формулировках могут привести к низким показателям F1, даже если сгенерированный ответ концептуально верен. Мы используем более гибкий подход, который мы называем токенизированным F1. Сначала мы токенизируем эталонный ответ и проверяем, является ли сгенерированный ответ точным совпадением с эталоном. Если совпадение найдено, ответ получает оценку 1. В противном случае мы изолируем числовой ответ из сгенерированного текста (например, выделяем "5" из "ответ: 5") и проверяем, соответствует ли это числовое значение эталонному ответу. Если соответствие найдено, ответ получает оценку 0.5. В ином случае ответ получает оценку 0. Токенизированный F1 более точно отражает концептуальную правильность ответов на задачи рассуждения, чем строгое сравнение текста, и позволяет нам количественно оценить производительность моделей более гибким образом.Self-reported
62.3%
VQA-Rad
Tokenized F1 Измерение производительности модели на генеративных задачах представляет собой сложную проблему, особенно когда словарные отклонения или стилистические различия могут не влиять на семантику ответа. Рассмотрим ответ модели "Площадь квадрата со стороной x равна x²" и референсный ответ "Площадь квадрата - это x в квадрате". Традиционные лексические метрики, такие как точный F1, могли бы оценить это как очень плохое совпадение, поскольку эти ответы имеют мало общих слов, хотя они семантически эквивалентны. Мы разработали подход "Tokenized F1" для решения этой проблемы. Мы используем модель LLM для токенизации как сгенерированного, так и референсного ответов на набор атомарных семантических единиц. Затем мы вычисляем F1 между этими наборами токенов. В приведенном выше примере токенизация может дать наборы {площадь_квадрата, равна, x_в_квадрате} и {площадь_квадрата, есть, x_в_квадрате}, что дает F1 = 0.8, лучше отражая их семантическую близость. Этот подход обеспечивает более точную меру сходства, чем обычные лексические метрики, и является более эффективным, чем полная семантическая оценка. Исследования показывают, что Tokenized F1 лучше коррелирует с человеческими оценками, чем стандартные метрики, такие как BLEU или обычный F1, при сохранении эффективности вычислений.Self-reported
49.9%

Лицензия и метаданные

Лицензия
health_ai_developer_foundations_terms_of_use
Дата анонса
20 мая 2025 г.
Последнее обновление
19 июля 2025 г.