Gemma 3n E2B Instructed
МультимодальнаяGemma 3n — это мультимодальная модель, предназначенная для локального запуска на оборудовании, поддерживающая входные данные в виде изображений, текста, аудио и видео. Она включает языковой декодер, аудиокодер и визуальный кодер и доступна в двух размерах: E2B и E4B. Модель оптимизирована для эффективного использования памяти, что позволяет ей работать на устройствах с ограниченным объемом GPU RAM. Gemma — это семейство легковесных, современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались для создания моделей Gemini. Модели Gemma хорошо подходят для различных задач понимания контента, включая ответы на вопросы, суммаризацию и логические рассуждения. Их относительно небольшой размер позволяет развертывать их в условиях с ограниченными ресурсами, таких как ноутбуки, настольные компьютеры или собственная облачная инфраструктура, демократизируя доступ к передовым моделям ИИ и способствуя инновациям для всех. Модели Gemma 3n разработаны для эффективного выполнения на устройствах с ограниченными ресурсами. Они способны обрабатывать мультимодальные входные данные, работая с текстом, изображениями, видео и аудио, и генерируя текстовые выходные данные, с открытыми весами для вариантов, настроенных по инструкциям. Эти модели были обучены на данных более чем на 140 разговорных языках.
Основные характеристики
Временная шкала
Технические характеристики
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках