Gemma 3n E4B
МультимодальнаяGemma 3n — это мультимодальная модель, предназначенная для локального запуска на аппаратном обеспечении, поддерживающая входные данные в виде изображений, текста, аудио и видео. Она включает языковой декодер, аудио-кодировщик и визуальный кодировщик, и доступна в двух размерах: E2B и E4B. Модель оптимизирована для эффективного использования памяти, что позволяет запускать её на устройствах с ограниченным объёмом GPU-памяти. Gemma представляет семейство легковесных, современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались для создания моделей Gemini. Модели Gemma хорошо подходят для различных задач понимания контента, включая ответы на вопросы, суммаризацию и логические рассуждения. Их относительно небольшой размер позволяет развёртывать их в условиях ограниченных ресурсов, таких как ноутбуки, настольные компьютеры или собственная облачная инфраструктура, демократизируя доступ к современным моделям ИИ и способствуя инновациям для всех. Модели Gemma 3n разработаны для эффективного выполнения на устройствах с низкими ресурсами. Они способны обрабатывать мультимодальные входные данные, работая с текстовыми, изображениями, видео и аудио входами, и генерировать текстовые выходы, с открытыми весами для вариантов, настроенных на инструкции. Эти модели были обучены на данных более чем на 140 разговорных языках.
Основные характеристики
Временная шкала
Технические характеристики
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках