MedGemma 4B IT

Мультимодальная

Google

MedGemma представляет собой коллекцию вариантов Gemma 3, обученных для работы с медицинскими текстами и пониманием изображений. MedGemma 4B использует кодировщик изображений SigLIP, который был специально предобучен на разнообразных деидентифицированных медицинских данных, включая рентгеновские снимки грудной клетки, дерматологические изображения, офтальмологические изображения и гистопатологические препараты. Ее LLM компонент обучен на разнообразном наборе медицинских данных, включая радиологические изображения, гистопатологические фрагменты, офтальмологические изображения и дерматологические изображения. MedGemma является мультимодальной моделью, в первую очередь оцениваемой на задачах с одним изображением. Она не была протестирована для многоэтапных приложений и может быть более чувствительной к специфическим промптам, чем ее предшественница Gemma 3. Разработчикам следует учитывать смещения в валидационных данных и проблемы загрязнения данных при использовании MedGemma.

Основные характеристики

Параметры

4.3B

Контекст

Дата выпуска

20 мая 2025 г.

Средний балл

58.5%

API документация Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

4.3B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Другие тесты

Специализированные бенчмарки

CheXpert CXR

Средний показатель F1 для 5 основных условий • Self-reported

48.1%

DermMCQA

Точность AI: Точность • Self-reported

71.8%

MedXpertQA

Точность AI: Anthropic's Claude 3 Opus is a step-change improvement over our previous models on accuracy across a range of downstream benchmarks, from standard industry benchmarks to new challenges. For measures based on popular subjects and common knowledge, Claude 3 Opus has closed much of the gap to human performance. For tasks requiring extensive subject-matter expertise, Claude 3 Opus demonstrates significant improvements while also indicating the potential for further progress. • Self-reported

18.8%

MIMIC CXR

Средний F1 для 5 лучших условий • Self-reported

88.9%

PathMCQA

Точность AI models are trained to predict real-world data, and we can evaluate them on how accurately they make these predictions. Accuracy is a measure of how often the model gets the right answer—the higher, the better. Accuracy can be assessed by comparing a model's outputs with human-generated reference outputs (on tasks like translation, summarization) or with objectively correct answers (on tasks like math problems, multiple-choice questions). For many tasks, accuracy is straightforward to measure. For instance, did the model get the right answer to a math question? But for some tasks, accuracy can be subjective—was the model's summary of a document actually good? In these cases, human evaluation is often necessary. AI labs typically evaluate accuracy across a variety of benchmarks (standardized test datasets) designed to test different types of abilities—including common sense reasoning, factual knowledge, logic, problem solving, and so on. Models can make different types of errors. They may hallucinate (making up information not supported by the input), be imprecise in their answers, lack necessary knowledge, make reasoning errors, or misunderstand the user's request. • Self-reported

69.8%

SlakeVQA

Tokenized F1 Мы также анализируем качество ответов моделей, сравнивая их с эталонными ответами. Стандартная метрика текстового сходства F1 сравнивает перекрытие множеств токенов между сгенерированным ответом и эталоном. Однако для наших задач на рассуждение такой подход проблематичен, поскольку небольшие отличия в формулировках могут привести к низким показателям F1, даже если сгенерированный ответ концептуально верен. Мы используем более гибкий подход, который мы называем токенизированным F1. Сначала мы токенизируем эталонный ответ и проверяем, является ли сгенерированный ответ точным совпадением с эталоном. Если совпадение найдено, ответ получает оценку 1. В противном случае мы изолируем числовой ответ из сгенерированного текста (например, выделяем "5" из "ответ: 5") и проверяем, соответствует ли это числовое значение эталонному ответу. Если соответствие найдено, ответ получает оценку 0.5. В ином случае ответ получает оценку 0. Токенизированный F1 более точно отражает концептуальную правильность ответов на задачи рассуждения, чем строгое сравнение текста, и позволяет нам количественно оценить производительность моделей более гибким образом. • Self-reported

62.3%

VQA-Rad

Tokenized F1 Измерение производительности модели на генеративных задачах представляет собой сложную проблему, особенно когда словарные отклонения или стилистические различия могут не влиять на семантику ответа. Рассмотрим ответ модели "Площадь квадрата со стороной x равна x²" и референсный ответ "Площадь квадрата - это x в квадрате". Традиционные лексические метрики, такие как точный F1, могли бы оценить это как очень плохое совпадение, поскольку эти ответы имеют мало общих слов, хотя они семантически эквивалентны. Мы разработали подход "Tokenized F1" для решения этой проблемы. Мы используем модель LLM для токенизации как сгенерированного, так и референсного ответов на набор атомарных семантических единиц. Затем мы вычисляем F1 между этими наборами токенов. В приведенном выше примере токенизация может дать наборы {площадь_квадрата, равна, x_в_квадрате} и {площадь_квадрата, есть, x_в_квадрате}, что дает F1 = 0.8, лучше отражая их семантическую близость. Этот подход обеспечивает более точную меру сходства, чем обычные лексические метрики, и является более эффективным, чем полная семантическая оценка. Исследования показывают, что Tokenized F1 лучше коррелирует с человеческими оценками, чем стандартные метрики, такие как BLEU или обычный F1, при сохранении эффективности вычислений. • Self-reported

49.9%

Лицензия и метаданные

Лицензия

health_ai_developer_foundations_terms_of_use

Дата анонса

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.